Motivations
Les quatre grands volets du projet correspondent à ses quatre objectifs :
- Volet linguistique, avec l'objectif de mettre
en œuvre un modèle intégré
et discursif de la référence et de la composition des chaînes de référence.
- Volet corpus, avec l'objectif de constituer
un corpus annoté qui puisse servir
de corpus de référence et de corpus d’apprentissage pour les campagnes
d’évaluation internationales portant sur la coréférence.
- Volet linguistique de corpus outillée, avec l'objectif de concevoir un outil
d’annotation, d’aide à l’annotation et de manipulation des données annotées.
- Volet traitement automatique des langues (TAL),
avec l'objectif de développer un
système (voire plusieurs systèmes utilisant des techniques différentes) de
détection automatique des coréférences.
Ces quatre volets sont motivés par les besoins suivants :
- Besoin d’un modèle théorique de la référence et des chaînes de référence,
qui soit à la fois fin d’un point de vue linguistique et suffisamment formel
pour en permettre une implantation informatique, une volonté du projet
étant de faire un pont entre théories linguistiques et traitement
automatique des langues.
- Besoin de données linguistiques attestées, en particulier diachroniques,
permettant d’une part d’apprécier les variations de composition des chaînes
de référence, d’autre part de servir de corpus de référence en langue française
(écrite) sur des données nouvelles relevant de la sémantique et pas seulement
de la morphosyntaxe et de la syntaxe.
- Besoin d’une plateforme unifiée pour la gestion de corpus, de la visualisation
à l’interrogation et aux calculs statistiques, en passant par l’annotation de
phénomènes relevant de différentes dimensions du langage.
- Besoin d’un système de détection automatique des chaînes de référence pour la
langue française.
Nous argumentons ces motivations de la manière suivante.
Malgré l'existence de descriptions approfondies des expressions référentielles,
il n'existe pas :
- de description intégrée permettant la modélisation des chaînes de référence,
de prédictions sur leur comportement textuel, voire leur typologie,
- de corpus permettant d'apprécier l'évolution historique de leur composition,
- d'outil permettant de visualiser, d'explorer et analyser des corrélations
dans les chaînes de référence,
- de système de traitement automatique des langues capables de traiter du texte
tout-venant, écrit en français, pour en extraire les expressions référentielles
et les chaînes de référence.
DEMOCRAT se donne pour ambition d'apporter de nouveaux résultats sur ces 4 aspects,
qui constituent les 4 volets et les 4 livrables principaux du projet.
Du point de vue théorique, DEMOCRAT permet d'articuler l'ensemble des
connaissances disponibles sur les expressions référentielles isolées et les enchaînements
anaphoriques, et de vérifier ou moduler pour le français les hypothèses émises par des
théories comme la Théorie de l'Accessibilité, la Hiérarchie du Donné et la Théorie du
Centrage.
Du point de vue des ressources (corpus et outils), DEMOCRAT contribue aux humanités
numériques en proposant un corpus numérique riche, pour la langue française, annoté en
fonction d'analyses linguistiques relevant d'une dimension encore peu explorée, à la
fois sémantique et pragmatique. En apportant de nouvelles données sur la langue, ce
corpus et le modèle associé sont destinés à :
- nourrir l'ensemble des applications de TAL (corpus d'envergure adapté aux besoins
de l'apprentissage artificiel),
- renforcer la place du français dans le monde via notamment son intégration dans
un défi scientifique d'ampleur internationale,
- apporter de nouvelles connaissances à toutes les disciplines connexes à la
linguistique, comme la didactique, la psycholinguistique, l'enseignement du
français et des langues.
Haut de page