La linguistique de corpus au service de la recherche
en terminologie et en traductologie

Corpus linguistics serving research
in terminology and translation

Résumés - Abstracts

 

Centre de recherche en linguistique appliquée Centrum voor Vaktaal en Communicatie

 

Lynne Bowker (School of Translation and Interpretation, University of Ottawa), Exploring technology in the context of translation and terminology research: Overview and prospects

The professions of translation and terminology are becoming increasingly technologized, and people working in these fields are likely to be familiar with a variety of computer-aided tools that aim to assist language professionals with their translation- and terminology-related tasks (e.g. translation memories, terminology management systems). While such tools are undeniably useful in a practical setting, technology also has the potential to make a rich contribution to research, and there are a number of active research areas in these fields.

Rather than presenting one specific project, this presentation aims to provide an overview of some of the ways in which technology can be applied to research in translation and terminology, with a special emphasis on corpus-based approaches and techniques, such as semi-automated corpus construction, term extraction, semi-automatic identification of various types of information (e.g. variants, collocates, semantic relations), and comparative text analysis. In addition, the notion of translation technologies as an object of research will also be explored. By examining a number of ways in which technology is being actively integrated into research, as well as identifying some areas where there is still much work to be done, we hope to inspire the next generation of translation and terminology researchers to take up the technology challenge!


Serge Verlinde et Ann Bertels (Grelep, Katholieke Universiteit Leuven) : La lexicographie et l'analyse de corpus : nouvelles perspectives

Les corpus ont révolutionné la lexicographie. Tout le monde l'admet aujourd'hui. Les grands corpus, qui ont vu le jour dans les années 60 en France et 80 en Angleterre, et leur exploitation statistique ont fait découvrir au lexicographe une face cachée du lexique. Depuis ces débuts, les corpus ont toutefois évolué et les méthodes d'analyse statistique se sont affinées.

L'objectif de la présentation est de montrer comment on peut intégrer les résultats de ces nouvelles analyses de corpus (monolingue), par exemple sous la forme de profils combinatoires de mots, dans un dictionnaire électronique (Base lexicale du français, ilt.kuleuven.be/blf, accès libre). Nous voulons illustrer d'autre part comment des types de corpus spécifiques (corpus parallèles, corpus sur mesure) ouvrent de nouvelles perspectives aux lexicographes et aux traducteurs.

L'intégration de telles informations et ressources dans un dictionnaire en modifie également l'apparence. De l'ouvrage de référence (papier) destiné à une consultation ponctuelle, le dictionnaire en devient un outil lexicographique (électronique) multi-fonctionnel et flexible, beaucoup mieux adapté aux besoins d'utilisateurs très divers.


Sabela Fernández Silva (IULATERM, Universitat Pompeu Fabra) and Koen Kerremans (CVC, Erasmushogeschool Brussel): Studying terminology and variation in specialised texts: corpus requirements and tools

Denominative variation pertains to the ways in which a given unit of thought can be expressed. Applied to special language, terms are possible denominations of units of thought. On the basis of a joint pilot project between IULATERM of the Universitat Pompeu Fabra and the Centrum voor Vaktaal en Communicatie (CVC) of the Erasmushogeschool Brussel, we will discuss how we study denominative variation in specialised texts. This pilot project was set up in the framework of two Phd projects on variation and terminology. Both projects are based on the premise that denominative variation is functional. It has been argued in recent years that there are several motivations for the use of terminological variants in specialised discourse (see e.g. Freixa 2006; Bowker and Hawkins 2006). The project carried out at IULATERM aims to examine to what extent the choice for a given term is triggered by textual, communicative and cognitive contexts. The project carried out at CVC wants to examine to what extent the use of terminological variants is reflected in specialised translations. The aims of both these studies are present in the joint pilot project, which was set up in an attempt to share experience with respect to practical issues, such as general workflows, corpus design, methods of analysis, etc. Our discussion of the pilot project will mainly concentrate on the selection criteria of texts in our corpus as well as on our requirements for specific tools supporting the general workflow.

References

Bowker, L. and Hawkins, S. (2006). “Variation in the organization of medical terms: Exploring some motivations for term choice,” Terminology 12 (1): 79-110.

Freixa, J. (2006). “Causes of denominative variation in terminology: A typology proposal,” Terminology 12 (1): 51-77.


Natalie Kübler (CLILLAC-ARP, EILA, Université Paris Diderot) : La linguistique de corpus comme éclairage de la conscience linguistique en traduction pragmatique

On a amplement démontré, depuis plus de dix ans, l’intérêt que pouvait avoir l’utilisation d’un corpus dans le processus de traduction. À aussi été abordée la question de l’apport du corpus en traductologie, notamment grâce à l’étude de corpus parallèles alignés. Le corpus est cependant souvent présenté comme un outil permettant aux praticiens, aux enseignants et aux théoriciens de la traduction de trouver des réponses à leurs questionnements. Le traducteur y cherche des équivalents terminologiques ou phraséologiques, des définitions pour mieux comprendre les termes, la bonne collocation dans la langue cible, etc. En traductologie, le corpus permet de mieux étudier les différentes stratégies de traduction, l’influence de celle-ci sur le texte cible, etc. On entend par conséquent « corpus » et non « linguistique de corpus ». L’objectif de cette présentation consistera donc à éclairer les liens qui se tissent aujourd’hui entre traductologie et linguistique de corpus, dans une optique praxéologique. Dans son étude empirique de la langue, allant au-delà des systèmes formels, la linguistique de corpus rejoint en effet le nécessaire besoin de conscience linguistique du traducteur et suit un chemin parallèle à une approche théorique de la traduction pragmatique. Quelques exemples, illustrant des questions liées au genre, à l’évaluation et aux prosodies sémantiques viendront appuyer cet éclairage.


Lieve Macken (LT3, Hogeschool Gent): Dutch Parallel Corpus: a multifunctional multilingual corpus

Aligned parallel corpora form an indispensable resource for a wide range of multilingual applications, a.o. machine translation, and computer-assisted translation tools. In addition to the technological applications, parallel corpora are also used to conduct more fundamental research in the fields of contrastive linguistics and translation studies. In the DPC-project, a 10-million-word, high-quality, sentence-aligned parallel corpus for the language pairs Dutch-English and Dutch-French is being compiled. As the corpus will be bidirectional (Dutch as source and target language), the corpus can also be used as a comparable corpus (to compare texts originally written in Dutch with translated Dutch texts). A part of the corpus will be trilingual and will contain Dutch texts translated into both English and French. The DPC will mainly differ from other existing parallel corpora in the following aspects:

1. Balanced composition: the DPC will contain texts from a wide range of text types (fiction and non-fiction), and diverse domains.

2. Level of annotation: the DPC corpus will be aligned, PoS-tagged and lemmatized. The annotation and linguistic processing will be produced by state-of-the-art tools.

3. Quality control: in order to guarantee corpus quality, ten percent of the DPC corpus will be checked manually at different levels.

4. Availability: in order to maximize research on parallel corpora, the DPC will be made available to the research community via the HLT-Agency.

The DPC-project is carried out within the STEVIN program, which is funded by the Dutch and Flemish Governments (http://taalunieversum.org/taal/technologie/stevin/).


Laurent Nicaise (Université libre de Bruxelles) : La sémantique cognitive et la linguistique de corpus ont enfin signé un contrat de mariage de raison

L’usage de corpus représentatifs et de méthodes quantitatives solides s’est heurté à de nombreuses réticences en linguistique cognitive, particulièrement dans l’étude de la métaphore. Jusqu’au milieu des années 90, l’écrasante majorité des études étaient basées sur l’introspection. Lakoff & Johnson et leurs collègues n’ont pas été épargnés par la critique, parfois acerbe, que Quinn (1991 : 91) résume judicieusement : la linguistique cognitive dans la foulée de L&J « relies on idealized cases, disconnected from the context of actual use in natural discourse ».

En dépit de la critique croissante envers la méthodologie lakovienne, le glissement vers des méthodes quantitatives ne s’est accompli que bon gré, mal gré. Pourtant, l’usage de corpus s’est avéré indispensable dans la linguistique cognitive, particulièrement si l’on désire développer des outils fiables pour l’analyse critique du discours ou l’apprentissage de la terminologie spécialisée.

Dans cette intervention, nous donnerons un aperçu de cette relation tumultueuse entre la linguistique cognitive et le recours aux analyses quantitatives. Enfin, nous donnerons un exemple d’une technique qui pourrait s’avérer utile dans cette optique.


Mathieu Guidère (ETI, Université de Genève) : Les corpus de textes publicitaires : nouvelles approches et méthodes pour le traducteur

On n'a jamais produit ni diffusé autant de messages publicitaires dans toutes les langues et sur tous types de supports. Et pourtant, l'état lacunaire de la bibliographie en matière de traduction publicitaire révèle la difficulté d'étudier cette forme particulière d'adaptation linguistique et culturelle. C'est que la constitution et l'exploitation des corpus publicitaires, qu'ils soient parallèles ou comparables, n'est pas une tâche aisée. Mais la généralisation de l'Internet comme outil de communication sociale, commerciale et institutionnelle a révolutionné ce champ d'études en rendant accessibles des sources d'information riches et variées. Les messages publicitaires sont désormais disponibles en ligne et en plusieurs langues, sur le même site web. Cette accessibilité permet d'envisager de nouvelles approches et méthodes d'analyse. Tout d'abord au niveau de la constitution même des corpus d'étude, l'Internet offre aujourd'hui la possibilité de réunir en un temps record des corpus multilingues et multimédias sans équivalent. Ensuite au niveau de l'exploitation, la comparaison des éléments constitutifs de ces corpus offre de nouvelles méthodes de recherche qui permettent d'envisager le traducteur comme un véritable communicateur. Enfin au niveau de la conceptualisation, une approche interdisciplinaire de ces corpus ouvre des perspectives inédites en matière d'études traductologiques et communicationnelles. Nous aborderons ces différents niveaux d'analyse en partant d'études de cas réalisées à une décennie d'intervalle à partir de corpus publicitaires multilingues (FR-EN-AR-ES). Notre objectif est d'expliquer l'évolution qui s'est opérée ces dernières années dans le domaine de la traduction publicitaire et de démontrer l'intérêt d'une approche diachronique des corpus pour la traductologie.


Kris Heylen (QLVL, Katholieke Universiteit Leuven) : Quantitative Lexicology and its Terminological Applications

Lexicology and Terminology share a common interest in word meaning. Yet, at first sight, they take very different perspectives. One of Lexicology's prime objectives is to chart the lexical variation within a language community by identifying the different words that exist for a single concept (the onomasiological perspective) and the different meanings that are expressed by a single word (the semasiological perspective). By contrast, Terminology's central goal has historically always been to rule out variation and define exactly one meaning for each terminological unit. However, in recent years, there has been a growing interest within terminology research to investigate terminological variation. One goal of this research is to weed out terminological inconsistencies, another is to map terminologies between distinct, yet related (sub)domains. In this presentation we will discuss a number of corpus-based statistical methods developed within Quantitative Lexicology for the systematic and large-scale analysis of lexical variation. More specifically, we will demonstrate how Semantic Vector Space Models have been used to automatically retrieve equivalent expressions within and across the two national varieties of Dutch (Belgium and the Netherlands) and to automatically identify differences in word meaning between these varieties. We will then discuss these methods' potential applications in terminology research.

 

Institut supérieur de traducteurs et interprètes Haute École de Bruxelles Erasmushogeschool Brussel

 


[Logo Termisti] Retour à la page d'accueil de Termisti


dernière mise à jour : 11 mars 2009
©  .