Dupont Yoann : La structuration dans les entités nommées

Thèse de doctorat à l'école doctorale Langage et langues de l'université Paris 3 sous la direction de Isabelle Tellier, 2017

Directrice de thèse : Isabelle Tellier

Co-encadrants de thèse : Marco Dinarelli, Christian Lautier

Ecole doctorale : Langage et langues de l’université Paris 3

Résumé

La structuration dans les entités nommées

La reconnaissance des entités nommées est une discipline cruciale du domaine du TAL. Elle sert à l’extraction de relations entre entités nommées, ce qui permet la construction d’une base de connaissance (Surdeanu and Ji, 2014), le résumé automatique (Nobata et al., 2002), etc… Nous nous intéressons ici aux phénomènes de structurations qui les entourent.
Nous étudierons d’abord les éléments contextuels aidant à la reconnaissance des entités nommées. Les premiers sont des sous-chaînes récurrentes, que nous appelerons les affixes caractéristiques d’une entité nommée. Le second type d’éléments est constitué des tokens ayant un fort pouvoir discriminant, appelés des tokens déclencheurs. Nous détaillerons l’algorithme que nous avons mis en place pour extraire les affixes caractéristiques, que nous comparerons à Morfessor (Creutz and Lagus, 2005b). Nous appliquerons ensuite notre méthode pour extraire les tokens déclencheurs, utilisés pour l’extraction d’entités nommées du Français et d’adresses postales.
Une autre forme de structuration pour les entités nommées est de nature syntaxique, qui suit généralement une structure d’imbrications ou arborée. Nous proposons un type de cascade d’étiqueteurs linéaires qui n’avait jusqu’à présent jamais été utilisé pour la reconnaissance d’entités nommées, généralisant les approches précédentes qui ne sont capables de reconnaître que des entités de profondeur finie ou ne pouvant modéliser certaines particularités des entités nommées structurées.
Tout au long de cette thèse, nous comparons deux méthodes par apprentissage automatique, à savoir les CRF et les réseaux de neurones, dont nous présenterons les avantages et inconvénients.

mots clés : reconnaissance des entités nommées, entités nommées structurées, apprentissage automatique, champs aléatoires conditionnels, réseaux de neurones

Date de soutenance : 23-11-2017

Jury de thèse

  • Agata SAVARY, maîtresse de conférences HDR (Université François Rabelais Tours, IUT de Blois), Rapporteure,
  • François YVON, professeur des universités (Université Paris Sud), chercheur (LIMSI/CNRS), Rapporteur,
  • Isabelle TELLIER, professeure des universités (Université Sorbonne Nouvelle Paris 3), Directrice de thèse,
  • Christian LAUTIER, directeur technique, Expert System France, Co-encadrant de thèse,
  • Marco DINARELLI, chargé de recherche, Laboratoire Lattice, Co-encadrant de thèse,
  • Frédéric LANDRAGIN, directeur de recherche, Laboratoire Lattice, Examinateur,
  • Pascale SÉBILLOT, professeur des universités, IRISA / INSA de Rennes, Examinatrice,
  • Patrick WATRIN, logisticien de recherche titulaire d’une thèse, Université catholique de Louvain, Examinateur.