Avant propos

Geoffrey Williams, Université de Bretagne Sud.

La linguistique de corpus est une discipline qui s'est développée à partir des années dix-neuf cent quatre vingt mais qui a vraiment pris son essor avec l'arrivée sur le marché d'ordinateurs personnels. Largement issue de l'école contextualiste, la discipline s'intéresse à la langue en contexte sous la forme de grands ensembles de textes, les corpus. C'est une discipline qui est très liée à l'utilisation de l'informatique, mais qui reste une discipline des sciences humaines et non de l'informatique. Les maîtres mots sont linguistique et corpus.

La linguistique de corpus est un vaste domaine, mais qui reste largement inconnu en France. Certains ont peur de l'informatique qui est vue comme purement quantitative, pas assez noble pour des recherches en littérature et civilisation. Cette optique est évidemment fausse car l'informatique offre des possibilités qui dépassent largement les analyses quantifiables en donnant la possibilité d'une analyse fine des textes électroniques. D'autres ignorent tout simplement l'existence des outils informatiques et continuent de faire des analyses longues et ingrates manuellement. Cette difficulté est largement accrue par le manque d'outils " grand public " disponibles en français. Les anglicistes connaissent bien des outils comme WordSmith Tools sous PC qui sont capables de créer des listes de mots et d'en extraire des concordances. Les anglicistes peuvent accéder à de grands corpus comme le British National Corpus en utilisant des outils comme SARA, également sous PC. En France, nous n'avons que peu d'outils pour PC et nous n'avons pas ce corpus de référence. La seule réponse est la création d'un mouvement de linguistique de corpus afin de démontrer les possibilités de l'informatique en sciences humaines sans être esclave de la machine.

Aucune discipline n'existe en isolation, il y a un continuum entre la linguistique de corpus des utilisateurs d'outils informatiques et de ceux qui sont plus intéressés par les outils eux-mêmes, et qui se rencontrent davantage en traitement automatique des langues (TAL). Il faut que les linguistes s'intéressent à des développements en TAL, et vice-versa. Malheureusement, ceci est loin d'être toujours le cas. Il faut donc créer une dynamique pour que notre discipline soit plus visible afin d'instaurer un véritable dialogue entre créateurs et utilisateurs d'outils.

Les débuts d'un mouvement existent, ils sont ici. La réponse à l'appel à communication a largement dépassé nos espoirs et reflète une activité riche et dynamique dans notre domaine. Nous trouvons des études sur l'apprentissage de la langue française, des études sur la langue elle-même, seule et dans des corpus bilingues. Nous avons des études de terminologie, de traduction et d'enseignement des langues de spécialité. Nous avons des communications de linguistes et également d'informaticiens qui cherchent cette symbiose entre la linguistique de terrain et l'informatique appliquée. Toutes les études sont basées sur des corpus, mais pas nécessairement sur des corpus électroniques. L'échange qui sera établi aujourd'hui devrait permettre à ces chercheurs non encore informatisés de voir les possibilités offertes par l'utilisation de l'informatique. Nous bénéficierions de leurs expériences sur l'étude de textes, oraux et écrites.

Le mouvement est amorcé, c'est à nous de le faire vivre.

Geoffrey Williams, Université de Bretagne Sud