Opération 4.1. Traitement automatique des langues et application

On a vu l’émergence extrêmement rapide ces dernières années de nouvelles méthodes d’apprentissage (notamment les approches neuronales ou « apprentissage profond ») : les performances obtenues sur certaines tâches avec ces méthodes obligent à les comprendre, à les tester et à les faire évoluer quand c’est nécessaire.

Au cours de la période passée (2012-2017), le laboratoire a produit des outils au niveau de l’état de l’art en ce qui concerne principalement l’analyse de séquences (cf. par exemple l’analyseur SEM à base de CRF pour l’analyse morphosyntaxique). Pour la période à venir, l’analyse de structures plus complexes est envisagée (analyse syntaxique, identification de chaînes de coréférence, reconnaissance d’« événements », etc.) dans la mesure où les techniques le permettent désormais. Ce sont surtout les réseaux de neurones et les architectures neuronales qui seront explorées au cours de la période visée. Les modèles seront évalués sur des jeux de données publics (afin de comparer les performances avec des modèles concurrents) et surtout appliqués à des questions linguistiques complexes pour lesquelles le laboratoire a une expertise particulière. On peut par exemple citer l’identification des chaînes de coréférence, en lien avec l’axe 2 et le projet Democrat : outre l’intérêt linguistique du problème, il s’agit de vérifier la robustesse et l’applicabilité des modèles d’analyse à des tâches complexes, variées et moins « balisées » que ce que les jeux de test traditionnels supposent souvent.

Ces recherches seront liées de manière fondamentale à l’analyse syntaxique dans un contexte multilingue. Le domaine du TAL s’est en effet longtemps focalisé sur le traitement de l’anglais et de quelques autres langues relativement riches au niveau des ressources. Le contexte international a sur ce point considérablement changé et offre aujourd’hui de nouvelles possibilités, avec par exemple la mise à disposition de corpus annotés de façon homogène dans plusieurs dizaines de langues (actuellement le site Universal Dependencies recense des corpus arborés dans un même format pour plus de 100 langues). Le laboratoire souhaite accompagner ce mouvement dans la mesure où un des enjeux essentiels est de mieux prendre en compte la diversité linguistique (voire certains aspects de typologie linguistique) afin de mettre au point des techniques d’analyse applicables dans des cadres où très peu de données annotées sont disponibles. L’accent sera mis sur le traitement automatique des langues à morphologie riche (les langues finno-ougriennes constitueront par exemple un terrain d’exploration privilégié, de même que différents états du français dans une perspective diachronique, en lien avec l’axe 3).

Un autre axe de recherche concerne le développement de modèles rendant compte d’aspects cognitifs du processus de compréhension. Une collaboration maintenant bien établie avec Sony a par exemple permis de réexaminer la notion de « jeu de langage » (modélisation de l’émergence du lexique ou de la syntaxe au sein d’une communauté d’agents artificiels, visant à mieux faire comprendre les conditions nécessaires pour l’émergence d’un langage dans un cadre contrôlé) et de la confronter à des modèles plus traditionnels utilisés en TAL. Notons un lien fort avec l’analyse syntaxique précédemment évoquée : les modèles d’apprentissage nécessitent de grandes masses de données pour fonctionner, mais un effort de plus en plus important est fait actuellement pour adapter les traitements à des langues dites sous-dotées, c’est-à-dire à partir d’un ensemble de connaissances linguistiques de départ très réduit, ce qui est évidemment intéressant d’un point de vue cognitif. Enfin, la compréhension des mécanismes à l’œuvre au sein des réseaux de neurones et la nature des représentations calculées reste un enjeu majeur pour le domaine. La notion de créativité (dans quelle mesure une modélisation sous forme de réseaux de neurones peut-elle produire des contenus originaux ?) sera en particulier étudiée dans différentes perspectives, en lien avec l’analyse et la génération de texte (littéraire notamment).

Collaborations nationales et internationales, universitaires et industrielles :

Le laboratoire entretient déjà des relations avec un nombre d’acteurs important sur le plan national et international à travers les projets récents ou en cours. Il peut s’agir d’institutions publiques (Vrije Universiteit Brussel, OFAI à Vienne, University de Cambridge au Royaume Uni, Université de Pise en Italie, Université fédérale du Rio Grande do Sul, etc.) et de laboratoires privés (Sony-CSL, Expert System (ex Temis), etc.). Le laboratoire participe également à des réseaux de recherche internationaux comme le réseau « Universal Dependencies ». Plusieurs thèses Cifre avec des entreprises de TAL ont été lancées au cours du contrat quinquennal en cours (avec Synthesio, Expert System et Sony), cet effort sera évidemment poursuivi.