Projet PEPS MC4 « Modélisation Contrastive et Computationnelle des Chaînes de Coréférence »

Bilan et extrait de corpus du projet PEPS (Projet Exploratoire Premier Soutien, appel INSHS-INS2I 2011) MC4 : Modélisation Contrastive et Computationnelle des Chaînes de Coréférence.

Projet PEPS MC4 (2011–2012)

Modélisation Contrastive et Computationnelle des Chaînes de Coréférence

Frédéric Landragin

Bilan du projet

Extrait du corpus annoté, lisible avec la dernière version d’ANALEC, logiciel téléchargeable sur le site Web de Lattice : La mère sauvage

Suite aux activités d’un groupe de travail actif pendant deux ans en 2009-2011 (groupe de travail « COREF » interne au laboratoire LATTICE, avec quelques participants extérieurs), et dans l’optique de préparer une soumission de projet à plus grande échelle (soumission ANR « blanc » prévue mi-janvier 2013), le projet PEPS MC4 s’est intéressé à la référence et à la coréférence dans des textes écrits, en français médiéval et en français contemporain, avec des objectifs à la fois théoriques et pratiques. Ce projet a bénéficié d’un financement de 13000 euros sur 2011 et 2012. Il a regroupé divers chercheurs en linguistique et en informatique, spécialistes de référence, de coréférence, de grammaticalisation, ou encore de méthodes de corpus. Démarré début juillet 2011 suite à l’affectation des crédits, le projet a tout de suite trouvé un mode de fonctionnement convivial et un rythme soutenu, et a permis d’aboutir dès fin 2011 à des constats et à des prises de décision, qui ont permis de travailler de manière efficace tout au long de l’année 2012, avec une répartition des travaux de recherche en sous-groupes de chercheurs. Ces sous-groupes ont travaillé sur divers corpus avec des interrogations et des préoccupations communes, par le biais notamment d’un schéma d’annotation commun. Fin 2012, les résultats des travaux effectués ont été mis en commun. C’est ainsi qu’en 2013 est prévue la soumission d’un projet de numéro spécial de revue, avec six articles présentant les résultats obtenus et, en fin de compte, le bilan du projet MC4. Ce document présente quelques éléments de ce bilan.

Participants au projet :

  • LATTICE (Montrouge) : Frédéric Landragin (coordinateur du projet), Michel Charolles, Benjamin Fagard, Julie Glikman, Frédérique Mélanie, Paola Pietrandrea, Thierry Poibeau, Sophie Prévost, Noalig Tanguy, Bernard Victorri.
  • LILPA (Strasbourg) : Daniela Capin, Lucie Limousin, Laurence Longo, Catherine Schnedecker, Amalia Todirascu.
  • En tant qu’individus : Céline Guillot (ICAR, Lyon), Vanessa Obry (Nantes), et d’autres participants plus ponctuels que ceux déjà cités.

Merci à eux pour leur participation qui s’est révélée enthousiaste et efficace sur toute la durée du projet.

1. Volet Linguistique

D’un point de vue linguistique, le but était de modéliser les éléments d’une chaîne de coréférence, en tenant compte non seulement des expressions référentielles (noms propres, syntagmes nominaux, syntagmes sans nom, pronoms personnels, démonstratifs, adverbiaux, possessifs, etc.) dont le rôle est de porter l’attention du destinataire sur un référent identifiable, mais aussi des expressions et indices qui, sans référer, rappellent ou évoquent dans l’esprit du destinataire l’existence d’un référent (appositions, constructions pronominales, constructions attributives, etc.). En complément des travaux déjà effectués sur la coréférence (Corblin 1995 ; Schnedecker 1997 ; Charolles 2002), ce projet avait pour objectif d’étudier et de modéliser la contribution de ces expressions et indices aux chaînes de coréférence, en partant du principe que tous les maillons d’une chaîne de coréférence n’ont pas la même importance. C’est dans ce principe « multi-niveau » et dans l’étude des indices coréférentiels que reposait le caractère exploratoire du projet pour son volet linguistique.

A titre d’exemple, le projet s’est ainsi intéressé aux maillons qui n’ont pas de trace linguistique marquée du fait de phénomènes d’ellipse ou de grammaticalisation. Il s’agit notamment des sujets zéro des verbes à l’infinitif, au participe, ou même, pour ce qui concerne le français médiéval qui permet l’élision du pronom sujet, des verbes conjugués. Pour ce faire, l’approche contrastive, qui met en rapport français médiéval et français contemporain, a pris tout son sens : elle a permis de mieux appréhender ces phénomènes et de mieux les prendre en compte dans les modélisations (cf. section suivante « Volet linguistique diachronique »).

Courant 2011, plusieurs discussions en séance plénière ont permis d’aboutir à une liste de phénomènes intéressants et d’hypothèses linguistiques à tester en corpus. Ces hypothèses ont porté sur trois objets d’étude :

  1. Les références : types d’expressions référentielles, typologie des expressions et indices qui ne réfèrent pas mais rappellent l’existence d’un référent accessible. Le travail a été mené en groupe, avec des spécialistes de morphosyntaxe, de syntaxe et de sémantique, à la fois pour le français contemporain et le français médiéval. Ce travail est passé par plusieurs phases successives : la spécification d’un schéma d’annotation très complet ; l’écriture d’un manuel d’annotation ; l’annotation d’un ensemble de textes courts afin de tester le schéma et le manuel. Trois annotateurs ont été impliqués dans cette tâche.
  2. La suite des références d’un texte : fréquences des passages d’un référent à un autre, des continuations sur un même référent, avec comme objectif d’ouvrir la voie à la détection automatique de motifs (ou patrons) de transitions référentielles. Le projet n’est pas allé très loin dans l’analyse de cette suite des références, mais les annotations ont été réalisées et la méthodologie a été clarifiée : les données sont là ; les outils aussi ; reste à lancer quelques études spécifiques, ce qui ne pourra pas être réalisé dans le cadre de ce projet mais pourra l’être dans sa suite (soumission de projet en cours).
  3. Les chaînes de coréférence dans un texte : typologies de ces suites de références portant sur le même référent, études des éventuelles corrélations entre l’apparition d’une catégorie d’expression référentielle (nom propre, par exemple) et des caractéristiques des structures informationnelle et textuelle (changement de paragraphe, par exemple). Tous les participants du projet ont été impliqués dans cette tâche, et plusieurs études ponctuelles ont été effectuées sur cet aspect.

L’identification de ces trois objets d’étude complémentaires a permis de clarifier la méthodologie de travail. Il a notamment été constaté que les besoins en termes d’outils informatiques étaient encore nombreux : aucun outil actuel n’est capable de gérer correctement des suites et des chaînes de coréférence incluant deux niveaux de contribution des maillons, ni a fortiori de les visualiser et de fournir des outils statistiques sur les données annotées correspondantes. Fin 2011, ce constat a permis de mettre en avant les priorités pour 2012, et a par ailleurs été à l’origine d’un bilan publié par le service de valorisation de l’INSHS : http://www.cnrs.fr/inshs/recherche/reference.htm.

C’est ainsi que, courant 2012, les efforts ont porté d’une part sur l’homogénéisation de la méthodologie d’annotation et d’étude de corpus, avec des améliorations portées au logiciel ANALEC (ajout d’une fonctionnalité pour la visualisation et l’étude de chaînes de coréférence) ; d’autre part sur les études de corpus proprement dites, avec plusieurs groupes de travail, chaque groupe se caractérisant par un genre textuel et/ou un état de langue : quelques participants au projet se sont focalisés sur des textes narratifs écrits en français contemporain, d’autres sur des textes non narratifs (textes de loi, par exemple) à diverses époques, d’autres encore sur plusieurs genres textuels en français médiéval. En guise de synthèse de l’éventail des questions posées et des phénomènes étudiés, les thématiques abordées ont été les suivantes :

  • Modélisation théorique des chaînes de coréférence : types d’éléments et types de structures en fonction de la langue et du genre textuel analysé : définitions et modélisations de la référence pour la suite des études ; typologie des référents et des expressions référentielles ; modélisation des inclusions éventuelles entre référents à l’aide de la Théorie des ensembles flous ; typologie des successions possibles de références et de leur contribution au discours ; typologie des indices coréférentiels, des expressions prédicatives et des expressions attributives ; modélisation des chaînes de coréférence en fonction de la langue et du genre textuel.
  • Modélisation théorique des rapports entre chaînes de coréférence, transitions référentielles, saillance et structure thématique d’un texte : typologie des introductions de chaînes de coréférence (par construction du discours, par anaphore associative, par extraction d’un référent d’un groupe de référents, etc.), et des principaux types de transitions d’une chaîne à une autre ; modélisation de motifs référentiels ; modélisation de la saillance des référents (de quels éléments annotés un outil a-t-il besoin pour procéder à des calculs de scores de saillance ?) ; rôle des chaînes de coréférence dans la construction du discours (étude des rapports entre chaînes de coréférence et chaînes thématiques).
  • Définition d’une méthodologie d’annotation de corpus dédiée aux problèmes de coréférence : synthèse des problèmes d’annotation du fait de la variété des phénomènes de référence et de coréférence ; conception et mise en œuvre d’une méthodologie d’annotation, d’un schéma d’annotation complexe (unités, relations, schémas) et d’un manuel d’annotation incluant des tests linguistiques ; mise en œuvre d’une suite logicielle dédiée à l’annotation de chaînes de coréférence, et basée sur les logiciels GLOZZ, ANALEC et EXCEL (tableaux croisés dynamiques) : outils d’annotation ; outils de visualisation ; outils de navigation ; outils d’interrogation. La solution ne réside pas dans l’utilisation d’un outil unique, mais dans un éventail d’outils ayant chacun leurs spécificités et leurs points forts. Travailler avec une chaîne d’outils est possible à partir du moment où les outils communiquent les uns avec les autres, et c’est notamment par le biais d’un effort sur la programmation de scripts PERL que certaines analyses ont pu être possibles.
  • Constitution d’un corpus annoté, multi-genre, multi-niveaux, corpus qui – une fois homogénéisé – sera diffusé librement dans la communauté. Remarque sur ce point : il s’agit d’un corpus d’étude, de taille modeste (environ 20000 mots pour 2000 expressions référentielles et indices coréférentiels annotés), et en aucun cas d’un corpus de référence. Pour ce faire, compte tenu du fait que l’annotation était totalement manuelle, des moyens humains beaucoup plus importants auraient été nécessaires (ou alors une simplification drastique du schéma d’annotation, mais dans ce cas les analyses linguistiques possibles auraient été beaucoup moins fines).

2. Volet linguistique diachronique

D’un point de vue chronologique, les travaux effectués dans le cadre de ce projet PEPS et les travaux réalisés auparavant ont consisté à construire un schéma d’annotation focalisé avant tout sur les phénomènes de référence et incluant de ce fait des aspects morphosyntaxiques, syntaxiques et sémantiques. Ces aspects ont d’abord été explorés et testés sur des textes en français contemporain, avant de l’être sur des textes en ancien et en moyen français. De fait, une étape du travail a alors consisté à prendre en compte un ensemble de modifications permettant d’obtenir un schéma d’annotation compatible avec les différents états de langue. Parmi les aspects qui ont été discutés lors des réunions plénières, se trouvent le cas marqué, l’aspect pro-drop (pronom non exprimé, cf. plus haut), la distinction entre « les chevaliers du roi » et « les chevaliers le roi », etc. Par ailleurs, certains de ces aspects ainsi que d’autres spécificités du français médiéval, notamment l’impossibilité de la cataphore avant une certaine date, ont amené à formuler de nouvelles hypothèses linguistiques qui ont été et vont être encore à l’origine d’études spécifiques. Comme cela a déjà été dit concernant l’étude de la suite des références, le projet MC4 a contribué à construire des ressources en suivant une méthodologie bien définie, mais ces ressources ont encore beaucoup à dire : des statistiques restent à calculer, des corrélations à tester, afin de leur faire dire tout ce qu’elles cachent en elles.

De ce point de vue de la constitution de ressources, nous noterons que ce projet PEPS prépare en explorant les aspects techniques et leurs conséquences la constitution de ressources sémantiques en français médiéval, cette constitution exploitant au mieux les efforts déjà fournis par la communauté. Ceux-ci (BFM : base du français médiéval ; SCRMF : Syntactic Reference Corpus of Medieval French) portent plus spécifiquement sur les couches morphosyntaxique et syntaxique des annotations, alors que le PEPS prépare avec les phénomènes de référence une nouvelle couche, plus sémantique, pour ne pas dire pragmatique. Avant d’arriver à un format de fichier clairement spécifié pour un corpus multi-couche de français médiéval, du travail reste à faire pour explorer d’une part les procédures d’annotation sémantique reposant sur des annotations syntaxiques existantes, d’autre part les outils de fusion d’annotations pour obtenir un seul corpus à partir de deux jeux d’annotation réalisés sur le même texte. Les spécificités du français médiéval (diversité des graphies, etc.), la complexité des structures syntaxiques et la richesse des annotations sémantiques rendent les deux aspects complexes et irréalisables dans le cadre de ce projet PEPS. Si la constitution d’un corpus multi-couche est en dehors de la portée du PEPS, celui-ci a néanmoins contribué à clarifier les besoins et à spécifier les techniques nécessaires.

3. Volet linguistique outillée et linguistique automatique

D’un point de vue informatique, il s’est agi d’une part d’explorer la voie de la détection automatique de chaînes de coréférence, et d’autre part d’adapter les outils d’annotation existants à la gestion des chaînes de coréférence. Pour le premier point, il existe déjà des systèmes d’identification de chaînes de coréférence (Longo & Todirascu 2010), et par là même beaucoup de méthodes d’annotation de la coréférence, notamment des méthodes adaptées en vue d’un traitement automatique ultérieur (Van Deempter & Kibble 2000). Néanmoins, ces méthodes et systèmes se restreignent aux expressions référentielles, voire à certaines expressions référentielles (celles qui sont détectables facilement). Plus que cela, l’un des objectifs de ce projet visait à explorer la voie du traitement automatique non seulement pour les expressions référentielles mais aussi pour les indices qui ont fait l’objet d’une étude dans le versant linguistique. C’est là que se trouvaient le caractère exploratoire du projet pour son versant informatique et la prise de risque. De fait, des efforts ont été faits dans ce sens, mais les résultats obtenus sont encore trop préliminaires pour être présentés ici.

Pour le second point, des outils tels que MMAX 2 (Müller & Strube 2006), GLOZZ 0.9.9 (Widlöcher & Mathet 2009) ou ANALEC 0.6 (Victorri 2010) sont dotés de fonctionnalités d’annotation et de visualisation, mais ne comportent pas les fonctionnalités de représentation et d’analyse que l’on attendait d’eux pour ce qui concerne les chaînes de coréférence : visualisation des différentes chaînes d’un texte sous la forme de graphes ; mise en relief de spécificités morphosyntaxiques ou sémantiques d’une chaîne ; identification automatique de la structure d’une chaîne (en utilisant par exemple un système de motifs, cf. Mellet & Longrée 2009) ; calcul d’indices numériques à partir des éléments annotés (calcul de saillance, notamment). Ce projet visait à satisfaire ces besoins via le développement d’une nouvelle version du logiciel ANALEC, qui jouait le rôle de plateforme d’analyse de textes écrits, plateforme intégrant divers modules, non seulement de visualisation, mais aussi d’analyse. En février 2012 est sortie la version 1.1 d’ANALEC, qui, suite aux très nombreux efforts du projet PEPS sur cet aspect, a proposé une première procédure pour visualiser et ainsi commencer à analyser des chaînes de coréférence. C’est cette version d’ANALEC qui a été utilisée par l’ensemble des participants au projet à partir de mars 2012, sachant que certains avaient commencé avec une version antérieure (c’est aussi pourquoi il reste encore du travail d’homogénéisation à effectuer). L’interface d’ANALEC 1.1 dédiée aux suites de référence a permis de montrer la faisabilité d’analyses comme par exemple la recherche de corrélation entre réapparition du nom propre dans une chaîne et marque de changement de paragraphe. Afin d’automatiser ce type d’analyses, des passerelles ont été programmées entre ANALEC et EXCEL, de manière à exploiter en complément les possibilités des tableaux croisés dynamiques d’EXCEL. Par ailleurs, les tests réalisés ont permis de spécifier une liste de besoins supplémentaires quant aux outils d’annotation et d’interrogation des données annotées. Ces besoins supplémentaires feront très probablement l’objet d’une future soumission de projet, en collaboration avec des spécialistes d’interfaces homme-machine.

Conclusion

Comme tout projet, le PEPS MC4 a rempli certains de ses objectifs et en a laissé d’autres en perspectives. Parmi les objectifs remplis, nous soulignerons la constitution du corpus, son annotation, les études des chaînes de référence, les modélisations, les comparaisons entre genres textuels et entre états de langue. Les volets « linguistique » et « linguistique diachronique » ont ainsi été particulièrement actifs et productifs. Le projet de numéro spécial de revue est là pour le prouver : 1. Introduction (F. Landragin & C. Schnedecker) ; 2. Titre à préciser (C. Schnedecker) ; 3. Typologie des chaînes de référence dans un corpus de textes narratifs médiévaux (J. Glikman, C. Guillot & V. Obry) ; 4. Chaînes de référence dans des textes médiévaux en anglo-normand (D. Capin) ; 5. Chaînes de référence dans des textes non narratifs (rapports publics et textes juridiques) (L. Longo & A. Todirascu) ; 6. Coréférence à l’oral : liens avec la segmentation syntaxique et prosodique (N. Tanguy, A. Lacheret, S. Kahane & P. Pietrandrea) ; 7. Référence et coréférence du pronom indéfini « on » (F. Landragin & N. Tanguy) ; 8. Analyse assistée par ordinateur de chaînes de coréférence (F. Landragin & F. Melanie, sommaire indicatif et non définitif dans la mesure où le projet de numéro spécial n’a pas encore été déposé à la soumission). De fait, il faut noter que le projet regroupait une bonne partie de la communauté française travaillant sur le français médiéval. Parmi les objectifs remplis, nous soulignons également l’importance prise par le volet linguistique outillée, suite aux constats et à l’expression de besoins relatifs aux outils d’annotation, de visualisation et d’aide à l’analyse. Nul doute que les réflexions et les développements initiés dans ce sens seront utiles pour d’autres objets d’étude, pour d’autres projets. Parmi les objectifs non totalement remplis, nous mentionnerons l’annotation automatique (ou reconnaissance automatique) des chaînes de coréférence et la systématisation des analyses en termes de motifs, de transitions référentielles et de saillance. Ce sont des perspectives pour des soumissions de projets à venir.