A propos de la taille d’un corpus ?

Thomas LEBARBE
GREYC - Université de Caen
thomas.lebarbe@info.unicaen.fr

Résumé

Dans une étude linguistique ou une évaluation d'un système, une question reste toujours en suspend: quelle pertinence du corpus?

Jucker résume ainsi le problème: "There is no simple solution to the question of how big a corpus has to be in order to be representative. There is, of course, a point after which an increase in corpus size does not significantly affect the results anymore, but this freezing point is difficult to ascertain, and there can be no generally valid guidelines." Il cite en particulier Oostdjik qui conseille 20.000 mots comme étant un corpus de taille suffisante pour l'étude du groupe nominal en l'anglais.

Plutôt que nous baser sur un nombre défini, somme toute, relativement aléatoirement, mais aussi ne prenant pas en compte le phénomène observé (pourquoi prendre 20.000 mots, lorsque l'échelle d'observation est le chunk, par exemple), nous proposons la méthode suivante pour définir la pertinence d'un corpus pour une observation quantitative donnée:

Toutefois, quelque soit l'observation donnée, le point zéro est difficilement observable, dû à la notion même de fréquence relative qui résulte en une oscillation, aussi légère soit-elle.

Pour chacun des phénomènes observés, l'on peut définir un cône d'oscillation constitué de deux asymptotes convergeant vers le même point à un nombre infini d'observés.

D'un point de vue pratique, l'on peut considérer que le point zéro est atteint quand le diamètre du cône d'oscillation est, pour tous les phénomènes observés, inférieur à 1%. Cette valeur de 1%, tout comme les 20.000 mots de Oostdjik, est purement empirique. Elle ne se justifie que par l'intérêt d'obtenir un résultat statistique précis au 1% près (i.e., l'oscillation moyenne par phénomène observé est inférieure au 1%). Cette valeur doit être prise avec précautions: si l'on étudie un nombre important d'observables, leurs fréquences relatives respectives moyennes sont d'autant diminuées. Ainsi, pour deux observables, elle sera de 50%, pour dix, elle sera de 10% et pour 100 elle sera de 1%. Nous proposons donc de limiter le diamètre du cône d'oscillation, non pas à 1% mais à 1%/no où no est le nombre d'observables.

Nous montrerons l’utilisation de ce principe sur plusieurs études sur corpus : l’évaluation de l’analyseur syntaxique du laboratoire GREYC, l’étude des arbres de dépendance et l’étude de la corrélation syntaxe-prosodie.

Figures

 

 

Bibliographie

[abney91] Abney Steven (1991), Parsing by chunks. In Berwick R. C., Abney S. P., and Tenny C., editors, Principle-based parsing: computation and psycholinguistics, pages 257-278. Kluwer Academic Plublishers, Boston.

[abney95] Abney Steven (1995), Chunks and Dependencies: bringing processing evidence to bear on syntax. In Cole J., Green G. and Morgan J., editors, Computational Linguistics and the Foundations of Linguistic Theory, pages 145-164. CSLI

[adda99] Adda G., Mariani J., Paroubek P., Rajman M., Lecomte J. (1999), Métrique et premiers résultats de l’évaluation GRACE des étiqueteurs morphosyntaxiques pour le Français. TALN’99, Cargèse, France.

[jucker92] Jucker A. (1992), Social Stylistics, Syntactic Variation in British newspaper, Mouton de Gruyter.

[lebarbe00a] Lebarbé Thomas (2000), What can you learn from a parser’s evaluation, ESSLLI 2000, Birmingham, Angleterre.

[vergne99] Vergne Jacques (1999) Etude et modélisation de la syntaxe des langues à l’aide de l’ordinateur, Analyse syntaxique automatique non combinatoire. Habilitation à Diriger des Recherches, Université de Caen.

RETOUR