Le corpus SRCMF

Syntactic Reference Corpus of Medieval French (SRCMF) est un corpus d'ancien français (250000 mots) annoté en syntaxe et morpho-syntaxe.

Dans le cadre du projet de recherche franco-allemand ANR/DFG, dirigé par Sophie Prévost (Lattice) et Achim Steim (Stuttgart, ILR), décembre 2008-février 2012.

Le projet SRCMF est né du constat qu’il n’existait pas, pour le français médiéval, de corpus annoté syntaxiquement, contrairement à d’autres langues, l’anglais par exemple.

Nous avons donc créé une telle ressource afin de la mettre à disposition de la communauté linguistique, d’une part pour alimenter les recherches syntaxiques, d’autre part pour permettre de créer des outils de traitement automatique de l’ancien français.

L’annotation a été réalisée sur les deux bases de français médiéval actuellement les plus importantes (environ 3 millions de mots chacune), la Base de Français Médiéval (ENS Lyon : ICAR, UMR 5191) et le Nouveau Corpus d’Amsterdam (ILR, University of Stuttgart), selon un modèle syntaxique unifié. Ce modèle, de type dépendanciel, a été élaboré dans le cadre du projet SRCMF.

Le projet a en outre permis de compléter l’étiquetage morpho-syntaxique des textes. Outre la mise à disposition d’une ressource de 250 000 mots étiquetés morpho-syntaxiquement et annotés syntaxiquement, le projet a permis le développement et l’adaptation d’outils réexploitables.

L’ensemble des ressources téléchargeables est en ligne sur le site http://srcmf.org. Par ailleurs 10 des 15 textes du corpus  (env. 170 000 mots) ont été convertis au modèle Universal Dependencies, le corpus étant accessible sur : https://universaldependencies.org/, et interrogeable avec Grew (http://match.grew.fr/?corpus=UD_Old_French-SRCMF@2.5)