Axe 4 : Modélisation, traitements automatiques et applications

Le traitement automatique des langues est en évolution rapide depuis l’apparition des méthodes fondées sur l’apprentissage au début des années 1990. L’« apprentissage profond », dernier avatar des réseaux de neurones, renouvelle radicalement le domaine depuis quelques années, que ce soit en analyse syntaxique, en sémantique ou en traduction automatique. Un travail de fond sur les modèles est donc nécessaire pour participer à ce mouvement de recherche extrêmement actif et incontournable.

Responsable : Thierry Poibeau

Participants : Marco Dinarelli, Frédéric Landragin, Frédérique Mélanie Bécquet, Clément Plancq, Elisa Raschini

Participants extérieurs : les collaborations internationales sont précisées dans le descriptif des opérations

1. Motivations

Le traitement automatique des langues est en évolution rapide depuis l’apparition des méthodes fondées sur l’apprentissage au début des années 1990. L’« apprentissage profond », dernier avatar des réseaux de neurones, renouvelle radicalement le domaine depuis quelques années, que ce soit en analyse syntaxique, en sémantique ou en traduction automatique. Un travail de fond sur les modèles est donc nécessaire pour participer à ce mouvement de recherche extrêmement actif et incontournable. Les propriétés de ces modèles expliquent en effet pourquoi les gains en performance sont importants pour certaines tâches (approche par « plongements de mots » permettant de pallier la rareté des données, prise en compte simultanée de l’axe paradigmatique et de l’axe syntagmatique permettant d’éviter la propagation des erreurs des systèmes « en pipe-line », etc.). Parallèlement, l’effort de normalisation dans l’annotation des données (par exemple la disponibilité de corpus arborescents et annotés syntaxiquement en suivant le modèle Universal Dependencies) permet d’envisager des traitements multilingues, avec à la clé une meilleure connaissance des traits généraux et des traits propres à chaque langue. Enfin, la qualité et la robustesse des analyseurs produits permet aujourd’hui d’envisager des applications originales, dans le domaine des Humanités numériques notamment.

2. Nouveautés et enjeux

Le traitement automatique des langues a toujours occupé une place essentielle au Lattice. La spécificité des travaux développés au sein du laboratoire est de combiner la recherche sur les techniques elles-mêmes (notamment issues de l’apprentissage automatique) et la prise en compte des particularités linguistiques des données manipulées et des tâches applicatives visées.

Les recherches que nous avons l’ambition de conduire concernent de ce fait i) le développement de techniques nouvelles, fondées en grande partie sur l’apprentissage artificiel, ii) l’application à des cas d’études pertinents (sur le plan linguistique et technologique), et iii) l’évaluation sur des jeux de données représentatifs, et si possible publiquement disponibles. Cet axe de recherche n’est pas autonome par rapport aux autres : les outils de modélisation permettent d’éclairer les recherches en linguistique, de même que la linguistique oriente la nature des traitements automatiques envisagés. Une réflexion critique est également menée sur les modèles développés, à l’heure où le domaine semble laisser de moins en moins d’espace à la linguistique.

Les recherches sont structurées en deux groupes complémentaires.

  • Une activité autour des nouveaux modèles de traitement automatique est essentielle. Cette recherche est inséparable de son application sur différents jeux de données afin d’évaluer régulièrement les performances obtenues. Dans ce cadre, on participe à des évaluations internationales sur des jeux de données publiques ; on poursuit aussi la recherche de partenariats industriels afin de valoriser les recherches et s’assurer que les solutions développées correspondent à des besoins réels.
  • Un autre pan de l’activité concerne l’application des techniques développées au domaine des humanités numériques. Ce domaine est à la fois divers (par les problématiques posées), prometteur (pour la mise en valeur du patrimoine littéraire par exemple) et incontournable (des formations se mettent en place à la fois à l’ENS et à l’Université Sorbonne nouvelle sur ce thème). Il s’agit d’amplifier dans ce quinquennal les recherches entamées lors du contrat en cours.

Avant de détailler ces deux opérations de recherche, soulignons les liens forts avec les autres axes du projet de recherche. Les recherches en modélisation et traitements automatiques contribuent aux recherches sur le lexique de l’axe 1 (par exemple par la poursuite des recherches sur l’acquisition lexicale automatique), aux travaux à l’interface syntaxe-sémantique de l’axe 2 (un effort particulier durant la période à venir concernera l’analyse syntaxique dans un cadre plurilingue, pour les langues faiblement dotées notamment). Enfin, le lien avec les travaux sur la diachronie est renforcé (modélisation et pondération des différents facteurs pertinents dans l’évolution des langues à travers notamment l’étude de l’évolution de l’ancien français, en lien étroit avec le projet ANR Profiterole).

3. Opérations

Modèles et application en matière de traitement automatique des langues

On a vu l’émergence extrêmement rapide ces dernières années de nouvelles méthodes d’apprentissage (notamment les approches neuronales ou « apprentissage profond ») : les performances obtenues sur certaines tâches avec ces méthodes obligent à les comprendre, à les tester et à les faire évoluer quand c’est nécessaire.

Traitements automatiques et applications

L’autre opération de recherche concerne l’application des techniques développées en matière de traitement automatique dans le cadre des Humanités numériques. Il s’agit d’un domaine d’investigation particulièrement prometteur au sein de PSL comme de USPC, et le laboratoire a déjà largement investi ce domaine d’application.