Modèles et application en matière de traitement automatique des langues

On a vu l’émergence extrêmement rapide ces dernières années de nouvelles méthodes d’apprentissage (notamment les approches neuronales ou « apprentissage profond ») : les performances obtenues sur certaines tâches avec ces méthodes obligent à les comprendre, à les tester et à les faire évoluer quand c’est nécessaire.

Au cours de la période passée (2010-2015), le laboratoire a produit des outils au niveau de l’état de l’art en ce qui concerne principalement l’analyse de séquences (cf. par exemple l’analyseur SEM à base de CRF). Pour la période à venir, l’analyse de structures plus complexes est envisagée (analyse syntaxique, identification de chaînes de coréférence, reconnaissance d’« événements », etc.) dans la mesure où les techniques le permettent désormais. Ce sont surtout les réseaux de neurones et les architectures neuronales qui seront explorées au cours de la période visée. Les modèles seront évalués sur des jeux de données publics (afin de comparer les performances avec des modèles concurrents) et surtout appliqués à des questions linguistiques complexes pour lesquelles le laboratoire a une expertise particulière. On peut par exemple citer l’identification des chaînes de coréférence, en lien avec l’axe 2 et le projet Democrat : outre l’intérêt linguistique du problème, il s’agit de vérifier la robustesse et l’applicabilité des modèles d’analyse à des tâches complexes, variées et moins « banalisées » que ce que les jeux de test traditionnels supposent souvent.

Ces recherches sont liées de manière fondamentale à l’analyse syntaxique dans un contexte multilingue. Le domaine du TAL s’est en effet longtemps focalisé sur le traitement de l’anglais et de quelques autres langues relativement riches au niveau des ressources. Le contexte international a sur ce point considérablement changé et offre aujourd’hui de nouvelles possibilités, avec par exemple la mise à disposition de corpus annotés de façon homogène dans plusieurs dizaines de langues (actuellement le site Universal Dependencies http://universaldependencies.org/ recense des corpus arborés dans un même format pour plus de 40 langues ; à noter que le français n’est pas absent mais il reste sous-représenté). Le laboratoire souhaite accompagner ce mouvement dans la mesure où un des enjeux essentiels est de mieux prendre en compte la diversité linguistique (voire certains aspects de typologie linguistique) afin de mettre au point des techniques d’analyse applicables dans des cadres où très peu de données annotées sont disponibles. L’accent est mis sur le traitement automatique des langues à morphologie riche (les langues finno-ougriennes constituent par exemple un terrain d’exploration privilégié, de même que différents états du français dans une perspective diachronique, en lien avec l’axe 3).

Un autre axe de recherche concerne le développement de modèles rendant compte d’aspects cognitifs du processus de compréhension. Une collaboration maintenant bien établie avec Sony a par exemple permis de réexaminer la notion de « jeu de langage » (modélisation de l’émergence du lexique ou de la syntaxe au sein d’une communauté d’agents artificiels, visant à mieux faire comprendre les conditions nécessaires pour l’émergence d’un langage dans un cadre contrôlé) et de la confronter à des modèles plus traditionnels utilisés en TAL. L’observation de l’émergence de langages artificiels dans des environnements de complexité maîtrisée (robots, agents artificiels) permet d’appréhender des phénomènes complexes et difficiles à modéliser dans des environnements naturels (les phénomènes de catégorisation, de nomination, de polysémie par ex., pour rester dans le domaine du lexique). Cet axe de recherche semble fondamental bien qu’il soit relativement peu exploré au niveau national et international : il constitue un des points forts du quinquennal. Notons aussi un lien fort avec l’analyse syntaxique précédemment évoquée : les modèles d’apprentissage essaient aujourd’hui d’inférer des représentations syntaxiques à partir d’un volume extrêmement réduit de données annotées, ce qui est évidemment intéressant d’un point de vue cognitif. Enfin, la compréhension des mécanismes à l’œuvre au sein des réseaux de neurones et la nature des représentations calculées reste un enjeu majeur pour le domaine.

Collaborations nationales et internationales, universitaires et industrielles :

Le laboratoire entretient déjà des relations avec un nombre d’acteurs important sur le plan national et international à travers les projets récents ou en cours. Il peut s’agir d’institutions publiques (Vrije Universiteit Brussel, OFAI à Vienne, University de Cambridge au Royaume Uni, Université de Pise en Italie, Université fédérale du Rio Grande do Sul, etc.) et de laboratoires privés (Sony-CSL, Expert System (ex Temis), etc.). Le laboratoire participe également à des réseaux de recherche internationaux comme le réseau « Universal Dependencies ». Plusieurs thèses Cifre avec des entreprises de TAL ont été lancées au cours du contrat quinquennal précédent (avec Synthesio, Expert System et Sony), cet effort est évidemment poursuivi.