Le projet SRCMF est né du constat qu’il n’existait pas, pour le français médiéval, de corpus annoté syntaxiquement, contrairement à d’autres langues, l’anglais par exemple.
Nous avons donc créé une telle ressource afin de la mettre à disposition de la communauté linguistique, d’une part pour alimenter les recherches syntaxiques, d’autre part pour permettre de créer des outils de traitement automatique de l’ancien français.
L’annotation a été réalisée sur les deux bases de français médiéval actuellement les plus importantes (environ 3 millions de mots chacune), la Base de Français Médiéval (ENS Lyon: ICAR, UMR 5191) et le Nouveau Corpus d’Amsterdam (ILR, University of Stuttgart), selon un modèle syntaxique unifié. Ce modèle, de type dépendanciel, a été élaboré dans le cadre du projet SRCMF.
Le projet a en outre permis de compléter l’étiquetage morpho-syntaxique des textes. Outre la mise à disposition d’une ressource de 260 000 mots étiquetés morpho-syntaxiquement et annotés syntaxiquement, le projet a permis le développement et l’adaptation d’outils réexploitables.
L’ensemble des ressources téléchargeables est en ligne sur le site http://srcmf.org. Par ailleurs, le corpus sera prochainement interrogeable par l’intermédiaire de la plateforme TXM développée à l’ENS de Lyon (version démo : http://txm.risc.cnrs.fr/demo).
Pour plus d’informations, contacter sophie.prevost@ens.fr