Linguistique(s) de corpus spécialisés et applications : quelques considérations, résultats et perspectives

Isabel DESMET

Université Paris8
UFR5 : Langues, Littératures et Civilisations Étrangères - Langues Étrangères Appliquées (LLCE - LEA) Département d'études des pays de langue portugaise
2, rue de la Liberté
93526 SAINT DENIS CEDEX 02
Tel : 01.49.40.68.42
idesmet@francemultimedia.fr

Les années quatre-vingts dix se caractérisent par un regain d'intérêt pour les corpus qui résulte de la rencontre d'une tradition anglo-saxonne de linguistique descriptive s'appuyant sur des corpus électroniques et des avancées dans le traitement automatique du langage naturel

. Il existe toutefois de nombreuses divergences sur la nature des données langagières retenues et sur leur utilisation, conduisant à plusieurs linguistiques de corpus. Celles-ci dépendent largement des critères de choix et de sélection des corpus, de leur exploitation, de leurs applications et des produits envisagés.

Parmi les différentes linguistiques de corpus, la linguistique des corpus spécialisés gagne une place très considérable dans le paysage scientifique actuel, notamment par le biais des études portant sur les terminologies et les phraséologies scientifiques et techniques.

Les domaines les plus traités à présent concernent la recherche automatique de candidats termes, la variation des termes en langue spécialisée, l'accès au sens et la désambigüisation, la construction des connaissances d'un domaine ou d'ontologies pour l'extraction et la représentation de l'information conceptuelle, le traitement de corpus en diachronie pour saisir l'évolution des termes, les corpus alignés pour la comparaison interlangues…

Cependant et dans ce paysage scientifique en plein essor, il semble pertinent de distinguer les concepteurs des outils d'interrogation et d'analyse des bases textuelles (aux frontières de la linguistique et de l'informatique), et les linguistes-utilisateurs de ces outils. Ces derniers établissent des liens entre linguistique de corpus, outils informatiques et applications lexicographiques, didactiques ou traductionnelles.

C'est dans le groupe des linguistes-utilisateurs que nous situons nos travaux. En effet, il y a déjà quelques années que nous constituons des corpus spécialisés, bilingues et comparables (portugais / français), dans le domaine des sciences sociales et humaines, économiques, politiques et juridiques, à des visées didactiques, lexicographiques et traductionnelles.

Dans la présente communication, nous proposons de présenter nos critères de choix et de sélection de nos corpus, l'exploitation de ces corpus à l'aide d'outils d'extraction des données linguistiques et quelques applications possibles, notamment dans le cadre de l'enseignement / apprentissage des langues spécialisées et de la constitution de dictionnaires électroniques d'aide à la traduction spécialisée. Nous présenterons quelques résultats de nos expériences et nos perspectives pour l'avenir.

RETOUR