Pour un système de traduction français-arabe basé sur corpus

Cette communication présente les techniques et les applications possibles en T.A. à partir d'un corpus bilingue traduit français-arabe. A partir d'un alignement au niveau des différentes " unités de traduction " (phrases, syntagmes), le traitement de grands volumes de textes d'apprentissage permet de construire un modèle de traduction automatique. Suivant des critères mixtes, linguistiques et statistiques, l'étude montre les étapes nécessaires à l'élaboration d'un système de traduction basé sur corpus.

En effet, l'exploitation des corpus de textes parallèles apparaît aujourd'hui comme une technologie fiable et prometteuse, aux vues des progrès réalisés aussi bien dans les capacités de stockage et de calcul, que dans la saisie de quantités importantes de textes.

L'approche que nous proposons ici pour le couple français-arabe (T.A. basée sur corpus) s'inscrit dans le prolongement de ce qui a été appelé, dans les années 1980, " T.A. basée sur la mémoire " (Memory-based machine translation, MBMT). Mais nous l'envisageons dans une optique linguistique, avec un recours au calcul de probabilité des équivalences entre textes du corpus.

Cette démarche est motivée par la conviction qu'il n'existe pas de solutions a priori à la traduction (des procédés théoriques), mais que les solutions possibles se trouvent dans les textes déjà traduits. Nous pensons également que le corpus bilingue est plus riche en enseignements sur la langue qu'un corpus monolingue parce qu'il apporte des informations sur l'équivalence " en situation ", renseignant ainsi sur les possibilités effectives du système de la langue en confrontation avec un système différent. Toutes ces hypothèses de travail sont présentées dans une optique de linguistique appliquée à la traduction.

RETOUR