Corpus électroniques : quelles perspectives pour le lexicographie monolingue ?

Alors qu'en terminographie, les dépouillements automatiques de corpus électroniques (de textes de spécialité) sont bien implantés, en lexicographie, ces recherches et extractions ne sont encore que timidement pratiquées : bien que ressenties comme une nécessité, elles sont encore faites " à la main " pour ce qui concerne le français . En nous interrogeant sur les causes de ce décalage, nous constatons que les recherches des lexicographes se font en corpus de " langue commune " avec des objets cherchés souvent moins strictement identifiés et structurés qu'en terminographie, mal aisément descriptibles dans des " scripts de fouille ". En vue de favoriser la consultation de corpus, afin qu'elle devienne un outil performant pour les lexicographes et, de la sorte, que nous puissions plaider pour son utilisation massive dans le traitement du lexique, j'ai entrepris , depuis la rentrée 2000, un travail ambitieux visant la constitution et le dépouillement automatique de corpus à exploiter en lexicographie.

Je me concentrerai, dans le cadre de cet exposé, principalement sur les qualités requises par un corpus dont l'objectif est de répondre aux besoins des lexicographes, puis sur différentes questions que je ne saurai résoudre qu'en interaction avec d'autres travaillant sur des problématiques connexes.

Je ne reviendrai ni sur les difficultés bien connues relatives à la collecte de textes primaires diversifiés et à leur échantillonnage afin d'obtenir un équilibrage quantitatif et qualitatif, ni sur la nécessité d'intégrer des productions orales et les questions de transcription que cela induit. Ces difficultés sont notoires et prises en compte. En considérant effectivement plusieurs articles de dictionnaire, je pointerai ici divers éléments qu'un lexicographe a besoin de trouver en corpus. Ceci m'amènera à présenter les différentes circonstances de fouille que j'ai identifiées : validations d'intuitions, recherches d'exemples authentiques, pointages de constructions syntaxiques ou de sens oubliés, nouveaux ou inconnus, etc.

A partir de ce pointage des besoins reconnus, j'établis un cahier des charges qui précise ce que le corpus considéré doit contenir ou peut éventuellement négliger. Ce cahier des charges est en cours de finalisation, mais quelques points déterminants peuvent d'ores et déjà être évoqués ici. Le corpus doit permettre que toutes les adresses d'un dictionnaire puissent potentiellement faire l'objet d'une recherche. En effet, selon le produit visé, les descriptions rédigées sont soit formulées à partir de l'intuition et du savoir des lexicographes soit construites à partir de données observées. Ce corpus doit également, bien entendu, refléter une palette maximalement large d'emplois des ces items, qu'il s'agisse de mots constitués d'une seule chaîne de caractères, de morphèmes ou de séquences polylexicales. Il faut par conséquent veiller à disposer en plus d'un bon équilibrage qualitatif, d'une certaine richesse lexicale et d'une actualisation constante des données . Il faut par ailleurs permettre qu'une recherche ne soit faite que sur tel ou tel sous-ensemble des documents primaires réunis de manière à autoriser des analyses locales ou à répondre à une question ponctuelle. Reste que bien que travaillant en milieu universitaire, il faut veiller à ne pas constituer un corpus de taille et de qualité insuffisantes risquant d'être considéré comme un " corpus jouet ", mais bien à réunir les conditions optimales pour accomplir de véritables études lexicographiques. Ces exigences qualitatives ne sont néanmoins pas les seuls aspects à envisager, d'autres sont fondamentaux pour l'avancement de ce projet : Quels outils informatiques sont actuellement disponibles ? En quoi peuvent-ils servir mes objectifs ? Comment les combiner, voire les amender, afin de les rendre plus adaptés aux besoins particuliers de la lexicographie ? Et, si je ne veux pas hypothéquer mon entreprise, comment présenter les résultats de dépouillements sans noyer le lexicographe consultant sous une quantité ingérable de données : comment les trier, les combiner, les analyser, leur faire donner du sens et donc quels post-traitements mettre en place et comment ?

Ces questions restent largement encore non résolues. Elles engagent une réflexion à long terme à mener en interaction avec d'autres, en particulier des informaticiens qui élaborent les outils de fouille, et en collaboration avec des linguistes désireux eux-aussi de travailler avec des corpus.

Notes
  1. Les choses sont quelque peu différentes pour l'anglais qui dispose de corpus de référence et d'une solide tradition de consultation de corpus en lexicographie.
  2. La " langue commune ", telle que perçue par les lexicographes, est la langue non spécialisée enrichie de la langue spécialisée observable dans des textes vulgarisateurs et non scientifiques ou techniques.
  3. Cette expérience est motivée par mon implication dans le DESS de Lexicographie et Terminographie (Université Lille 3), DESS qui a pour mission de fournir une formation universitaire de haut niveau à de futurs professionnels pour qui les corpus électroniques et leur dépouillement automatique sont des outils que je juge nécessaires.
  4. Ce travail est jusqu'ici mené avec la contribution des étudiants du DESS Lexicographie et Terminographie, mais aussi de ceux de licence TAL puis de maîtrise IDL, de DEA de Sciences Du Langage, de doctorants linguistes et de lexicographes ou enseignants et chercheurs, impliqués ou non dans le DESS, intéressés par ces questions et désireux eux-aussi de disposer de tels outils pour leurs recherches.
  5. Les citations d'auteurs sont déjà largement présentes dans les dictionnaires du marché, les lexicographes n'éprouvent donc pas le besoin de disposer de plus de données capturées dans la littérature classique.