Axe 4 : Modélisation, traitements automatiques et applications

Le traitement automatique des langues est en évolution rapide depuis l’apparition des méthodes fondées sur l’apprentissage au début des années 1990. L’« apprentissage profond », dernier avatar des réseaux de neurones, renouvelle radicalement le domaine depuis quelques années, que ce soit en analyse syntaxique, en sémantique ou en traduction automatique. Un travail de fond sur les modèles est donc nécessaire pour participer à ce mouvement de recherche extrêmement actif et incontournable...

Responsable : Thierry Poibeau

Participants : Pascal Amsili, Ioana Galleron, Dominique Legallois, Frédéric Landragin, Frédérique Mélanie Bécquet, Clément Plancq, Elisa Raschini

Motivations

Le traitement automatique des langues est en évolution rapide depuis l’apparition des méthodes fondées sur l’apprentissage au début des années 1990. L’« apprentissage profond », dernier avatar des réseaux de neurones, renouvelle radicalement le domaine depuis quelques années, que ce soit en analyse syntaxique, en sémantique ou en traduction automatique. Un travail de fond sur les modèles est donc nécessaire pour participer à ce mouvement de recherche extrêmement actif et incontournable. Les propriétés de ces modèles expliquent en effet pourquoi les gains en performance sont importants pour certaines tâches (approche par « plongements de mots » permettant de pallier la rareté des données, prise en compte simultanée de l’axe paradigmatique et de l’axe syntagmatique permettant d’éviter la propagation des erreurs des systèmes « en pipe-line », etc.). Parallèlement, l’effort de normalisation dans l’annotation des données (par exemple la disponibilité de corpus arborescents et annotés syntaxiquement en suivant le modèle Universal Dependencies) permet d’envisager des traitements multilingues, avec à la clé une meilleure connaissance des traits généraux et des traits propres à chaque langue. Enfin, la qualité et la robustesse des analyseurs produits permet aujourd’hui d’envisager des applications originales, dans le domaine des Humanités numériques notamment.

Nouveautés et enjeux

Le traitement automatique des langues a toujours occupé une place essentielle au Lattice. La spécificité des travaux développés au sein du laboratoire est de combiner la recherche sur les techniques elles-mêmes (notamment issues de l’apprentissage automatique) et la prise en compte des particularités linguistiques des données manipulées et des tâches applicatives visées.

Les recherches que nous avons l’ambition de conduire concernent de ce fait i) le développement de techniques nouvelles, fondées en grande partie sur l’apprentissage artificiel, ii) l’application à des cas d’études pertinents, en particulier dans le domaine des Humanités numériques, et iii) l’évaluation sur des jeux de données représentatifs, et si possible publiquement disponibles. Cet axe de recherche n’est pas autonome par rapport aux autres : les outils de modélisation permettent d’éclairer les recherches en linguistique, de même que la linguistique oriente la nature des traitements automatiques envisagés. Une réflexion critique sera également menée sur les modèles développés, à l’heure où le domaine semble laisser de moins en moins d’espace à la linguistique.

Pour la période à venir, les recherches sont structurées en deux groupes complémentaires.

      • Une activité autour des nouveaux modèles de traitement automatique est essentielle. Cette recherche est inséparable de son application sur différents jeux de données afin d’évaluer régulièrement les performances obtenues. Dans ce cadre, on participera à des évaluations internationales sur des jeux de données publiques ; on poursuivra aussi la recherche de partenariats industriels afin de valoriser les recherches et s’assurer que les solutions développées correspondent à des besoins réels.
      • Un autre pan de l’activité concernera l’application des techniques développées au domaine des humanités numériques. Ce domaine est à la fois divers (par les problématiques posées), prometteur (pour la mise en valeur du patrimoine littéraire par exemple) et incontournable (des formations se mettent en place à la fois à l’ENS et à l’Université Sorbonne nouvelle sur ce thème). Il s’agit d’amplifier dans le prochain quinquennal les recherches entamées lors du contrat en cours.

Avant de détailler ces deux opérations de recherche, soulignons les liens forts avec les autres axes du projet de recherche. Les recherches en modélisation et traitements automatiques contribueront aux recherches sur le lexique de l’axe 1 (par exemple par la poursuite des recherches sur l’acquisition lexicale automatique), aux travaux à l’interface syntaxe-sémantique de l’axe 2 (un effort particulier durant la période à venir concernera l’analyse syntaxique dans un cadre plurilingue, pour les langues faiblement dotées notamment). Enfin, le lien avec les travaux sur la diachronie sera renforcé (modélisation et pondération des différents facteurs pertinents dans l’évolution des langues à travers notamment l’étude de l’évolution du français médiéval, en lien étroit avec le projet ANR Profiterole).

3. Opérations

Opération 4.1. Traitement automatique des langues et application

On a vu l’émergence extrêmement rapide ces dernières années de nouvelles méthodes d’apprentissage (notamment les approches neuronales ou « apprentissage profond ») : les performances obtenues sur certaines tâches avec ces méthodes obligent à les comprendre, à les tester et à les faire évoluer quand c’est nécessaire.

Opération 4.2. TAL et applications au domaine des Humanités numériques

L’autre opération de recherche concerne l’application des techniques développées en matière de traitement automatique dans le cadre des Humanités numériques. Il s’agit d’un domaine d’investigation particulièrement prometteur au sein de PSL comme au sein de l’Université Sorbonne nouvelle, et le laboratoire a déjà largement investi ce domaine d’application depuis le dernier contrat quinquennal.