Laboratoire Lattice - UMR 8094
ENS-CNRS
1 rue Maurice Arnoux, 92120 Montrouge

Thierry Poibeau

Directeur de Recherche
CNRS, Directeur adjoint du laboratoire

Je suis directeur de recherche au CNRS et directeur adjoint du laboratoire LATTICE (Langues, Textes, Traitements informatiques et Cognition). Je suis actuellement titulaire d’une chaire PRAIRIE (Paris Artificial Intelligence Research Institute) en traitement des langues naturelles et humanités  numériques. Je suis également Affiliated lecturer  au Département de linguistique théorique et appliquée (DTAL) de l’Université de Cambridge, et associé à Cambridge Digital Humanities.

En 2018-2019, j’ai bénéficié d’un Rutherford fellowship au Turing Institute (Londres / Cambridge). De 2003 à 2009, j’ai travaillé comme chercheur au CNRS au Laboratoire d’Informatique de Paris-Nord. En 2002-2003, j’ai été professeur associé au Centre de Recherche en Ingénierie Multilingue (CRIM) de l’Institut National des Langues et Civilisations Orientales (INaLCO) et auparavant ingénieur de recherche chez Thales Recherche et Technologie (1998-2002).

Je travaille principalement sur le traitement du langage naturel (TAL, en anglais NLP), en particulier sur les sujets suivants : extraction d’informations, systèmes de question-réponse, acquisition de connaissances à partir de textes et analyse des entités nommées. Outre le TAL, je m’intéresse à l’acquisition du langage, aux sciences cognitives, à l’épistémologie et à l’histoire de la linguistique.

Plus récemment, j’ai été actif dans deux autres domaines de recherche.

Les humanités numériques sont un domaine en pleine croissance à l’intersection de l’informatique et des sciences humaines. J’ai récemment développé un large éventail d’activités autour de ce thème au sein de LATTICE et nous avons maintenant plusieurs projets et expérimentations en cours (en particulier Oupoco et  BookNLP, voir ici et ici pour des exemples de publications récentes). Je suis également impliqué dans le Master en Sciences Humaines Numériques de PSL.

Je m’intéresse enfin à la diversité et à la typologie des langues, à travers l’exemple des langues finno-ougriennes, en particulier les langues fenniques (c’est-à-dire le finnois et les langues proches). Nous avons récemment développé des modèles d’analyse multilingue qui ont été appliqués avec succès à des langues sous-dotées du point de vue des ressources linguistiques disponibles, comme le same et le komi (travail conjoint avec KyungTae Lim et Niko Partanen). Voir ici pour plus d’informations.

Médias

Publication récente

Babel 2.0
Où va la traduction automatique ?

La question de la traduction automatique s’est posée dès la naissance de l’informatique. Elle semblait alors accessible, mais quiconque, aujourd’hui, utilise les traducteurs automatiques disponibles sur Internet sait que, malgré les remarquables progrès effectués, on est encore loin d’une traduction toujours fidèle. La complexité du langage naturel et ses ambiguïtés sont bien faites pour dérouter les algorithmes pleinement rationnels de nos ordinateurs. Les « réseaux de neurones » qui pratiquent l’« apprentissage profond » sont la dernière en date des multiples stratégies déployées pour parler avec la machine… et s’en faire comprendre.

Autres publications

Toutes mes publications sont référencées sur HAL, et la plupart y sont aussi disponibles en libre accès.

Une liste sous forme de fichier PDF est aussi disponible ici (mis à jour début 2019).

Enseignement

J’enseigne régulièrement dans différentes formations

  • Traitement automatique des langues pour les Humanités numériques, Master Humanités numériques, Paris Sciences et Lettres (PSL). J’ai contribué à monter ce Mater (Master en Humanités numériques de PSL, ouvert depuis 2017). Je représente l’ENS au sein de ce Master.
  • Computational and corpus linguistics à l’Université de Cambridge

Je contribue également à l’organisation annuelle de deux « semaines intensives PSL »

  • La semaine intensive DHAI (Digital humanities and Artificial Intelligence
  • La semaine intensive Ethique et IA, en lien avec le Master IASD (Dauphine-PSL)

Projets de recherche

Outre ma Chairie Prairie, je participe à plusieurs projets de recherche :

  • Un projet ANR appelé MEDIALEX, avec le Médialab de SciencesPo, le laboratoire CREST et l’INA. Ce projet vise à étudier l’influence respective entre agenda médiatique et agenda politique, à partir de corpus de presse et de réseaux sociaux.
  • un projet européen appelé ASTOUND, sur le dialogue homme machine et sa perception par l’humain. Je participe à la définition des protocoles d’évaluation et à la prise en compte des aspects éthiques.

Voici quelques projets récents et plus au moins arrivés à terme.

  • OuPoCo (Ouvroir de Poésie Combinatoire). Ce projet vise à produire des sonnets en recombinant des vers issus de sonnet du 19e siècle, reprenant ainsi une idée de Queneau (100 000 milliards de poèmes).  Une « boîte à poésie », machine autonome basse consommation productrice de poésie, a aussi été produite par l’atelier Raffard-Roussel dans le cadre de ce projet.
  • un projet appelé LAKME (Linguistically Annotated Corpora Using Machine Learning Techniques) financé par PSL. Lakme vise à explorer de nouvelles techniques pour l’analyse morphosyntaxique ou syntaxique de corpus textuels de langues riches en morphologie (français médiéval, hébreu rabbinique et diverses langues finno-ougriennes).

Doctorants

Thèses en cours

  • Noé Durandard (2023-, Ecole normale supérieure ; en partenariat avec TUM, Munich). Aspects subjectifs des modèles de langues (opinions, goûts, préférences culturelles) : gestion, encodage, personnalisation
  • Jean Barré (2022-, Ecole normale supérieure ; co-direction avec Thomas Conrad). Etude diachronique du canon littéraire ; étude de l’évolution littéraire à partir de l’analyse de grandes masses de données
  • Armin Pournaki (2021-, Ecole normale supérieure & UniV. Leipzig/MPI, co-direction avec J. Jost, MPI, et en collaboration avec JP Cointet, médialab SciencesPo) : computational approaches to language and discourse analysis.
  • Salomé Do (2019-, Ecole normale supérieure & Sciences Po Paris, co-direction avec JP Cointet, médialab Sciences Po) : News framing

Thèses soutenues

  • Karim Lasri (2019-2023, Ecole normale supérieure & Univ. Pisa, co-direction avec A. Lenci) : Distributional analysis and compositionality
  • Mylène Maignant (2018-2022, Ecole normale supérieure (financement : EUR Translitterae, ENS/PSL): Analyse automatique de la réception du théâtre contemporain anglais à travers l’analyse de la base Theater Record
  • Yuanfeng Lu (2017-2021, Ecole normale supérieure, financement du gouvernement chinois): Analyse stylistique à base de techniques de traitement automatique des langues
  • KyungTae Lim (2017-, Ecole normale supérieure: Multilingual Universal Dependency parsing
  • Tian Tian (2015-, Université Paris 3 Sorbonne nouvelle — thèse initialement dirigée par Isabelle Tellier, décédée en juin 2018 ; Cifre avec la société Synthesio) Reconnaissance d’entités nommés dans des textes bruités (Twitter, forums, chats)
  • Miquel Cornudella Gaya (2014-2017, Ecole normale supérieure, thèse Cifre avec Sony CSL Paris): modeling language evolution (Miquel travaille maintenant pour Ammazon Espagne)
  • Pablo Ruiz Fabo (2014-2017, Ecole normale supérieure; allocation régionale IDF): l’apport du traitement automatique des langues aux humanités numériques (Pablo est maintenant maître de conférence à l’Université de Strasbourg)
  • Pierre Marchal (2010-2015, INALCO; contrat doctoral) : acquisition à large échelle de schéma de sous-catégorisation pour le japonais (Pierre travaille maintenant pour Amazon à Boston, après être passé chez SAP Paris et SAP Boston)
  • Elisa Omodei (2011-2014, Ecole normale supérieure; allocation régionale IDF / Système complexes): Modeling the socio-semantic dynamics of scientific communities (Elisa is now a post-doctoral student at the Department of Mathematics and Computer Engineering at the Rovira i Virgili University, in Tarragona, Spain)
  • Zorana Ratkovic (2010-2014, Université Paris 3; project funded): parsing for information extraction from texts (Zorana is now working as a research engineer for a IT company in the Paris area)
  • Mani Ezzat (2009-2013, INALCO; Cifre grant with Arisem): automatic acquisition of relations between entities (now working as a research engineer at Exalead)
  • Yufan Guo (2009-2013, University of Cambridge, co-supervision with Anna Korhonen; funded by Cambridge): text zoning of scientific texts (now working as a research engineer at IBM USA)
  • Cédric Messiant (2006-2010, Université Paris 13; national DGA grant) : automatic lexical acquisition from large corpora (now working as a research engineer at Ecreall, a IT company in Lille)
  • Aurélien Bossard (2006-2010, Université Paris 13; national PhD grant): automatic summarization (now an associate professor at Université Paris 8)
  • Amanda Bouffier (2004–2008, Université Paris 13; national PhD grant) : discursive analysis of medical texts (now an outstanding drummer and occasionally an independent consultant in text mining)

Voir aussi dans «Direction»

Sophie PRÉVOST