Laboratoires partenaires

Organismes tutelles

Motivations

Les quatre grands volets du projet correspondent à ses quatre objectifs :

Volet linguistique, avec l'objectif de mettre en œuvre un modèle intégré et discursif de la référence et de la composition des chaînes de référence.
Volet corpus, avec l'objectif de constituer un corpus annoté qui puisse servir de corpus de référence et de corpus d’apprentissage pour les campagnes d’évaluation internationales portant sur la coréférence.
Volet linguistique de corpus outillée, avec l'objectif de concevoir un outil d’annotation, d’aide à l’annotation et de manipulation des données annotées.
Volet traitement automatique des langues (TAL), avec l'objectif de développer un système (voire plusieurs systèmes utilisant des techniques différentes) de détection automatique des coréférences.

Ces quatre volets sont motivés par les besoins suivants :

Besoin d’un modèle théorique de la référence et des chaînes de référence, qui soit à la fois fin d’un point de vue linguistique et suffisamment formel pour en permettre une implantation informatique, une volonté du projet étant de faire un pont entre théories linguistiques et traitement automatique des langues.
Besoin de données linguistiques attestées, en particulier diachroniques, permettant d’une part d’apprécier les variations de composition des chaînes de référence, d’autre part de servir de corpus de référence en langue française (écrite) sur des données nouvelles relevant de la sémantique et pas seulement de la morphosyntaxe et de la syntaxe.
Besoin d’une plateforme unifiée pour la gestion de corpus, de la visualisation à l’interrogation et aux calculs statistiques, en passant par l’annotation de phénomènes relevant de différentes dimensions du langage.
Besoin d’un système de détection automatique des chaînes de référence pour la langue française.

Nous argumentons ces motivations de la manière suivante. Malgré l'existence de descriptions approfondies des expressions référentielles, il n'existe pas :

de description intégrée permettant la modélisation des chaînes de référence, de prédictions sur leur comportement textuel, voire leur typologie,
de corpus permettant d'apprécier l'évolution historique de leur composition,
d'outil permettant de visualiser, d'explorer et analyser des corrélations dans les chaînes de référence,
de système de traitement automatique des langues capables de traiter du texte tout-venant, écrit en français, pour en extraire les expressions référentielles et les chaînes de référence.

DEMOCRAT se donne pour ambition d'apporter de nouveaux résultats sur ces 4 aspects, qui constituent les 4 volets et les 4 livrables principaux du projet.

Du point de vue théorique, DEMOCRAT permet d'articuler l'ensemble des connaissances disponibles sur les expressions référentielles isolées et les enchaînements anaphoriques, et de vérifier ou moduler pour le français les hypothèses émises par des théories comme la Théorie de l'Accessibilité, la Hiérarchie du Donné et la Théorie du Centrage.

Du point de vue des ressources (corpus et outils), DEMOCRAT contribue aux humanités numériques en proposant un corpus numérique riche, pour la langue française, annoté en fonction d'analyses linguistiques relevant d'une dimension encore peu explorée, à la fois sémantique et pragmatique. En apportant de nouvelles données sur la langue, ce corpus et le modèle associé sont destinés à :

nourrir l'ensemble des applications de TAL (corpus d'envergure adapté aux besoins de l'apprentissage artificiel),
renforcer la place du français dans le monde via notamment son intégration dans un défi scientifique d'ampleur internationale,
apporter de nouvelles connaissances à toutes les disciplines connexes à la linguistique, comme la didactique, la psycholinguistique, l'enseignement du français et des langues.

Haut de page