Projet ANR « DEMOCRAT »

Description et modélisation des chaînes de référence : outils pour l'annotation et le traitement automatique. Projet retenu lors de l'appel générique ANR 2015.

DEMOCRAT vise à développer les recherches sur la langue et la structuration textuelle du français via l’analyse détaillée et contrastive des chaînes de référence (instanciations successives d’une même entité) dans un corpus diachronique de textes écrits entre le 9ème et le 21ème siècle, avec des genres textuels variés.

Site du projet

https://www.lattice.cnrs.fr/democrat/

Objectifs

Le projet mettra à disposition de la communauté scientifique :

  1. Un modèle intégré et discursif de la référence et de la composition des chaînes de référence.
  2. Un corpus annoté qui puisse servir de corpus de référence et de corpus d’apprentissage pour les campagnes d’évaluation internationales portant sur la coréférence.
  3. Un outil d’annotation, d’aide à l’annotation et de manipulation des données annotées.
  4. Un système de détection automatique des coréférences.

Le corpus annoté manuellement en chaînes de référence aura une taille d’environ 500000 mots, soit environ 200000 maillons annotés.

Motivations :

  1. Besoin d’un modèle théorique de la référence et des chaînes de référence, qui soit à la fois fin d’un point de vue linguistique et suffisamment formel pour en permettre une implantation informatique, une volonté du projet étant de faire un pont entre théories linguistiques et traitement automatique des langues.
  2. Besoin de données linguistiques attestées, en particulier diachroniques, permettant d’une part d’apprécier les variations de composition des chaînes de référence, d’autre part de servir de corpus de référence en langue française (écrite) sur des données nouvelles relevant de la sémantique et pas seulement de la morphosyntaxe et de la syntaxe.
  3. Besoin d’une plateforme unifiée pour la gestion de corpus, de la visualisation à l’interrogation et aux calculs statistiques, en passant par l’annotation de phénomènes relevant de différentes dimensions du langage.
  4. Besoin d’un système de détection automatique des chaînes de référence pour la langue française.

Modèle et corpus :

Malgré des descriptions existantes très fournies sur les expressions référentielles, il n’en existe ni de description intégrée pour modéliser les chaînes de référence, ni de prédiction sur leur comportement textuel, voire leur typologie. A fortiori, il n’existe ni corpus en diachronie ni corpus translinguistique pour apprécier les variations de leur composition. Il existe un seul corpus de grande taille annoté en anaphores (ANCOR), sur du français oral, mais aucun corpus annoté en chaînes de référence, sur du français écrit, c’est-à-dire avec des chaînes de référence de longue taille. Il s’agit donc de construire un corpus de travail pertinent et suffisamment varié pour montrer la diversité de composition des chaînes de référence, de fournir des propositions théoriques favorisant un travail d’annotation efficace, et aider à perfectionner les outils d’annotation. Seront exploités et enrichis le Corpus Représentatif des Premiers Textes Français, la Base de Français Médiéval, le Syntactic Reference Corpus of Medieval French et, pour la langue contemporaine, des extraits des corpus de l’ANR ORFEO.

Linguistique outillée :

La mise en œuvre d’une plateforme d’annotation, construite sur la plateforme TXM et enrichie par les fonctionnalités d’annotation dynamique d’ANALEC permettra de fournir un cadre unifié pour l’annotation efficace et ergonomique du corpus, ainsi que pour des expérimentations d’aide à l’annotation.

Système de TAL :

Il s’agira d’optimiser CROC (Coreference Resolution for Oral Corpus), un prototype développé au LATTICE à l’aide de techniques d’apprentissage automatique utilisées sur le corpus ANCOR, et d’ouvrir la voie à la réalisation de systèmes hybrides, conciliant plusieurs techniques d’apprentissage ainsi que des systèmes de règles comme celui utilisé dans l’outil RefGen développé au LILPA. DEMOCRAT permettra ainsi la mise en œuvre du premier système de détection automatique de chaînes de référence pour le français, système qui participera à des campagnes d’évaluation internationales.

Laboratoires publiques partenaires :

  • LATTICE (Responsable Frédéric Landragin)
  • LILPA (Responsable Catherine Schneidecker)
  • IHRIM et ICAR (Responsable Céline Guillot-Barbance)

Lien vers la page du projet sur le site de l’ANR : https://anr.fr/Projet-ANR-15-CE38-0008

Lien vers le Wiki de travail du projet : https://groupes.renater.fr/wiki/democrat/