Projet ANR « Syntactic Reference Corpus of Medieval French (SRCMF) »

Projet de recherche franco-allemand ANR/DFG, dirigé par Sophie Prévost (Lattice) et Achim Steim (Stuttgart, ILR), décembre 2008-février 2012.

Le projet SRCMF est né du constat qu’il n’existait pas, pour le français médiéval, de corpus annoté syntaxiquement, contrairement à d’autres langues, l’anglais par exemple.

Nous avons donc créé une telle ressource afin de la mettre à disposition de la communauté linguistique, d’une part pour alimenter les recherches syntaxiques, d’autre part pour permettre de créer des outils de traitement automatique de l’ancien français.

L’annotation a été réalisée sur les deux bases de français médiéval actuellement les plus importantes (environ 3 millions de mots chacune), la Base de Français Médiéval (ENS Lyon: ICAR, UMR 5191) et le Nouveau Corpus d’Amsterdam (ILR, University of Stuttgart), selon un modèle syntaxique unifié. Ce modèle, de type dépendanciel, a été élaboré dans le cadre du projet SRCMF.

Le projet a en outre permis de compléter l’étiquetage morpho-syntaxique des textes. Outre la mise à disposition d’une ressource de 260 000 mots étiquetés morpho-syntaxiquement et annotés syntaxiquement, le projet a permis le développement et l’adaptation d’outils réexploitables.

L’ensemble des ressources téléchargeables est en ligne sur le site http://srcmf.org. Par ailleurs, le corpus sera prochainement interrogeable par l’intermédiaire de la plateforme TXM développée à l’ENS de Lyon (version démo : http://txm.risc.cnrs.fr/demo).

Pour plus d’informations, contacter sophie.prevost@ens.fr