Laboratoire Lattice - UMR 8094
ENS-CNRS
1 rue Maurice Arnoux, 92120 Montrouge

Thierry POIBEAU

Directeur de Recherche
CNRS, Directeur adjoint du laboratoire

Je suis directeur de recherche au CNRS et directeur adjoint du laboratoire LATTICE (Langues, Textes, Traitements informatiques et Cognition). Je suis actuellement titulaire d’une chaire PrAIRIe (Paris Artificial Intelligence Research Institute) en traitement des langues naturelles et humanités  numériques. Je suis également Affiliated lecturer  au Département de linguistique théorique et appliquée (DTAL) de l’Université de Cambridge.

En 2018-2019, j’ai bénéficié d’un Rutherford fellowship au Turing Institute (Londres / Cambridge). De 2003 à 2009, j’ai travaillé comme chercheur au CNRS au Laboratoire d’Informatique de Paris-Nord. En 2002-2003, j’ai été professeur associé au Centre de Recherche en Ingénierie Multilingue (CRIM) de l’Institut National des Langues et Civilisations Orientales (INaLCO) et auparavant ingénieur de recherche chez Thales Recherche et Technologie (1998-2002).

Je travaille principalement sur le traitement du langage naturel (TAL, en anglais NLP), en particulier sur les sujets suivants : extraction d’informations, systèmes de question-réponse, acquisition de connaissances à partir de textes et analyse des entités nommées. Outre le TAL, je m’intéresse à l’acquisition du langage, aux sciences cognitives, à l’épistémologie et à l’histoire de la linguistique.

Plus récemment, j’ai été actif dans deux autres domaines de recherche.

Les humanités numériques sont un domaine en pleine croissance à l’intersection de l’informatique et des sciences humaines. J’ai récemment développé un large éventail d’activités autour de ce thème au sein de LATTICE et nous avons maintenant plusieurs projets et expérimentations en cours avec différents partenaires académiques (notamment l’Institut des Systèmes Complexes à Paris, le Médialab de Sciences Po, etc). Je suis à la tête d’un réseau de collaboration international (International Research Network) appelé Cyclades (« Corpora and Computational Linguistics for Digital Humanities ») sur ce thème, financé essentiellement par le CNRS (partenaires : Stanford Literary Lab, USA ; DH Lab à L’univ. de Göttingen, Allemagne ; British Library, Turing Institute et Univ. Cambridge en grande bretagne ; BnF, Sciences Po médialab en France). Je suis également impliqué dans le nouveau Master en Sciences Humaines Numériques de PSL. Voir ici pour plus d’informations.

Je m’intéresse enfin à la diversité et à la typologie des langues. Je m’intéresse en particulier aux langues finno-ougriennes, en particulier les langues fenniques (c’est-à-dire le finnois et les langues proches). Nous avons récemment développé des modèles d’analyse multilingue qui ont été appliqués avec succès à des langues sous-dotées du point de vue des ressources linguistiques comme le same et le komi (travail conjoint avec KyungTae Lim et Niko Partanen). Voir ici pour plus d’informations.

Dernière publication

Babel 2.0
Où va la traduction automatique ?

La question de la traduction automatique s’est posée dès la naissance de l’informatique. Elle semblait alors accessible, mais quiconque, aujourd’hui, utilise les traducteurs automatiques disponibles sur Internet sait que, malgré les remarquables progrès effectués, on est encore loin d’une traduction toujours fidèle. La complexité du langage naturel et ses ambiguïtés sont bien faites pour dérouter les algorithmes pleinement rationnels de nos ordinateurs. Les « réseaux de neurones » qui pratiquent l’« apprentissage profond » sont la dernière en date des multiples stratégies déployées pour parler avec la machine… et s’en faire comprendre.

Autres publications

Toutes mes publications sont référencées sur HAL, et la plupart y sont aussi disponibles en libre accès.

Une liste sosu forme e fichier PDF est aussi disponible ici (mis à jour début 2019).

Enseignement

J’enseigne régulièrement dans différentes formations

    • Traitemnt automatique des langues pour les Humanités numériques, Master Humanités numériques, Paris Sciences et Lettres (PSL)
    • Computational and corpus linguistics à l’Université de Cambridge

J’ai contribué à monter le Mater en Humanités numériques de PSL qui a ouvert en 2017. Je représente l’ENS au sein de ce Master.

Projets de recherche

Je suis responsable de plusieurs projets de recherche :

    • OuPoCo (Ouvroir de Poésie Combinatoire). Ce projet vise à produire des sonnets en recombinant des vers issus de sonnet du 19e siècle, reprenant ainsi une idée de Queneau (100 000 milliards de poèmes).  Une boîte à poésie, machine autonome basse consommation productrice de poésie, a aussi été produite par l’atelier Raffard-Roussel dans le cadre de ce projet.
    • un projet européen appelé ATLANTIS (Artificial Language understanding In Robots). ATLANTIS vise à mieux  comprendre et modéliser les toutes premières étapes de l’apprentissage d’une langue  par un robor, dans un encironnement naturel ou artificiel.
    • un projet appelé LAKME (Linguistically Annotated Corpora Using Machine Learning Techniques) financé par PSL. Lakme vise à explorer de nouvelles techniques pour l’analyse morphosyntaxique ou syntaxique de corpus textuels de langues riches en morphologie (français médiéval, hébreu rabbinique et diverses langues finno-ougriennes).

Doctorants

Thèses en cours

    • KyungTae Lim (2017-, Ecole normale supérieure: Multilingual Universal Dependency parsing
    • Yuanfeng Lu (2017-, Ecole normale supérieure, financement du gouvernement chinois): Analyse stylistique à base de techniques de traitement automatique des langues
    • Mylène Maignant (2018-, Ecole normale supérieure (financement : EUR Translitterae, ENS/PSL): Analyse automatique de la réception du th »âtre contemporain anglais à travers l’analyse de la base Theater Record
    • Tian Tian (2015-, Université Paris 3 Sorbonne nouvelle — thèse initialement dirigée par Isabelle Tellier, décédée en juin 2018 ; Cifre avec la société Synthesio) Reconnaissance d’entités nommés dans des textes bruités (Twitter, forums, chats)

 

Thèses soutenues

    • Miquel Cornudella Gaya (2014-2017, Ecole normale supérieure, thèse Cifre avec Sony CSL Paris): modeling language evolution (Miquel travaille maintenant pour Ammazon Espagne)
    • Pablo Ruiz Fabo (2014-2017, Ecole normale supérieure; allocation régionale IDF): l’apport du traitement automatique des langues aux humanités numériques (Pablo est maintenant maître de conférence à l’Université de Strasbourg)
    • Pierre Marchal (2010-2015, INALCO; contrat doctoral) : acquisition à large échelle de schéma de sous-catégorisation pour le japonais (Pierre travaille maintenant pour Amazon à Boston, après être passé chez SAP Paris et SAP Boston)
    • Elisa Omodei (2011-2014, Ecole normale supérieure; allocation régionale IDF / Système complexes): Modeling the socio-semantic dynamics of scientific communities (Elisa is now a post-doctoral student at the Department of Mathematics and Computer Engineering at the Rovira i Virgili University, in Tarragona, Spain)
    • Zorana Ratkovic (2010-2014, Université Paris 3; project funded): parsing for information extraction from texts (Zorana is now working as a research engineer for a IT company in the Paris area)
    • Mani Ezzat (2009-2013, INALCO; Cifre grant with Arisem): automatic acquisition of relations between entities (now working as a research engineer at Exalead)
    • Yufan Guo (2009-2013, University of Cambridge, co-supervision with Anna Korhonen; funded by Cambridge): text zoning of scientific texts (now working as a research engineer at IBM USA)
    • Cédric Messiant (2006-2010, Université Paris 13; national DGA grant) : automatic lexical acquisition from large corpora (now working as a research engineer at Ecreall, a IT company in Lille)
    • Aurélien Bossard (2006-2010, Université Paris 13; national PhD grant): automatic summarization (now an associate professor at Université Paris 8)
    • Amanda Bouffier (2004–2008, Université Paris 13; national PhD grant) : discursive analysis of medical texts (now an outstanding drummer and occasionally an independent consultant in text mining)

Voir aussi dans «Direction»

Sophie PRÉVOST