Axe 2 : Discours

Dans cet axe seront développées des études sur le discours, qui présentent une dimension à la fois syntaxique, sémantique et pragmatique.

Responsable : Frédéric Landragin

Participants Lattice : Myriam Bouveret, Shirley Carter-Thomas, Michel Charolles, Jeanne-Marie Debaisieux, Marco Dinarelli, Benjamin Fagard, Frédéric Landragin, Frédérique Mélanie-Becquet, Clément Plancq, Thierry Poibeau, Sophie Prévost, Laure Sarda

Collaborateurs extérieurs : Agnès Celle (Université Paris Diderot), Gilles Col (U. Poitiers), Charlotte Danino (Université Sorbonne Nouvelle-Paris 3), Céline Guillot-Barbance (IHRIM, ENS Lyon), Catherine Schnedecker (LILPA, Université de Strasbourg) et les partenaires du projet ANR Democrat

1. Motivations

Dans cet axe seront développées des études sur le discours, qui présentent une dimension à la fois syntaxique, sémantique et pragmatique. Ces études s’appuieront sur les travaux menés depuis plusieurs années au Lattice (cf. l’axe « Mécanismes de composition du discours » du quinquennal précédent), grâce auxquels les chercheurs du laboratoire ont acquis une expertise reconnue dans la communauté. Dans la prolongation de ces travaux, l’axe 2 s’attachera plus spécifiquement aux aspects structurants qui dépassent le cadre de la phrase (ou du tour de parole en dialogue). L’axe comprend deux objets d’étude : les marqueurs de la structuration du discours et les chaînes de coréférences, qui relèvent tous deux de la question de la cohésion et la cohérence du discours, et qui partagent de mêmes objectifs : modéliser et tester en corpus le fonctionnement de structures discursives. Si le rôle cohésif de celles-ci a déjà été mis au jour, elles n’ont pas encore été analysées de manière systématique, et certainement pas dans une perspective de traitement automatique.

2. Nouveautés et enjeux

Les études qui seront menées dans cet axe relèvent d’une approche contrastive, sur plusieurs langues mais aussi et surtout sur plusieurs genres textuels. Comme les études des autres axes du projet, elles s’appuient sur l’usage observable en corpus. Elles contribuent également à préciser, voire enrichir, la méthodologie de la linguistique de corpus outillée, en apportant des moyens de visualisation et d’analyse adaptés au discours. L’ouverture vers des applications en traitement automatique des langues est essentielle, d’autant qu’il s’agit d’un domaine encore peu exploité pour le français : la détection automatique de chaînes de coréférences est un problème complexe, largement abordé pour des langues bien représentées comme l’anglais, mais très peu pour le français. Le Lattice fédère des efforts pour exploiter les descriptions et modélisations linguistiques dans des expérimentations d’apprentissage artificiel et pourra, lors du prochain quinquennal, proposer des modèles et des systèmes qui contribueront à faire accéder le français au rang des langues pour lesquelles il existe un traitement automatique de la coréférence.

3. Opérations

Marqueurs de la structuration du discours

L’enjeu de cette opération est de cerner les rôles des différentes configurations lexicales et syntaxiques susceptibles d’assurer la structuration du discours au fur et à mesure de son déroulement.

Chaînes de coréférences

L’étude des chaînes de coréférences – ou « chaînes de référence(s) », la variété terminologique reflétant une différence d’approche et non de nature – fait depuis plusieurs années l’objet de travaux au sein du Lattice, avec notamment le projet PEPS MC4 (« Modélisation Contrastive et Computationnelle des Chaînes de Coréférences », 2011-2013, resp. Frédéric Landragin) et le projet ANR Democrat (« Description et modélisation des chaînes de référence : outils pour l’annotation et le traitement automatique », 2016-2020, resp. Frédéric Landragin). Ces projets ont pour objectif premier la constitution d’un corpus annoté manuellement, qui constitue d’ailleurs la phase en cours du projet Democrat, ce qui diffère ainsi à après 2019 les diverses études linguistiques sur le corpus.