Chaînes de coréférences

L’étude des chaînes de coréférences – ou « chaînes de référence(s) », la variété terminologique reflétant une différence d’approche et non de nature – fait depuis plusieurs années l’objet de travaux au sein du Lattice, avec notamment le projet PEPS MC4 (« Modélisation Contrastive et Computationnelle des Chaînes de Coréférences », 2011-2013, resp. Frédéric Landragin) et le projet ANR Democrat (« Description et modélisation des chaînes de référence : outils pour l’annotation et le traitement automatique », 2016-2020, resp. Frédéric Landragin). Ces projets ont pour objectif premier la constitution d’un corpus annoté manuellement, qui constitue d’ailleurs la phase en cours du projet Democrat, ce qui diffère ainsi à après 2019 les diverses études linguistiques sur le corpus.

La présente opération regroupe une partie de ces études et applications, tout en les étendant à l’étude de la cohérence et de la cohésion. En utilisant une méthodologie à la fois qualitative et quantitative, nous ferons émerger une typologie précise des chaînes de coréférences, en commençant entre autres par distinguer les chaînes essentiellement pronominales (GN… « il »… « il »… « il »…) des chaînes plus hétérogènes, incluant de nombreuses redénominations. Nous ferons l’hypothèse – que nous testerons une fois notre corpus constitué – que le genre textuel favorise l’apparition d’un type de chaîne par rapport aux autres (cf. opération 1). Pour décrire et modéliser les chaînes, il sera ainsi nécessaire de questionner le paramètre des genres discursifs, d’inventorier les genres déjà étudiés et ceux souvent mis de côté, notamment les textes non narratifs à référents non humains dont les caractéristiques discursives restent à déterminer.

En retour, la description et la modélisation des chaînes qui auront été mises au jour devraient constituer des faisceaux de critères qui, ajoutés à d’autres (macro- et micro-structurels), permettront de distinguer des genres discursifs plus finement encore que l’état de l’art actuel ne le propose. Pour le genre narratif, notre étude s’enrichira de comparaisons avec d’autres langues que le français, notamment l’anglais, l’allemand et le chinois, en collaboration avec des spécialistes du Lattice et de Democrat. En lien avec l’axe 4 « traitement automatique des langues », la principale application de cette opération sera le paramétrage des systèmes de détection automatique de chaînes de coréférences qui seront réalisés pour le français contemporain.