
Laboratoire Lattice - UMR 8094
ENS-CNRS
1 rue Maurice Arnoux, 92120 Montrouge
Yoann Dupont
Maître de Conférences
Université Paris 3 Sorbonne Nouvelle
Sujet de thèse
La structuration dans les entités nommées
Directrice de thèse
Co-encadrants de thèse
Marco Dinarelli
Christian Lautier
Rapporteurs de thèse
Examinateurs de thèse
Frédéric Landragin
Pascale Sébillot
Patrick Watrin
Soutenance
Thèse soutenue le 23 Novembre 2017 à 14h. avis de soutenance
Résumé
La reconnaissance des entités nommées est une discipline cruciale du domaine du TAL. Elle sert à l’extraction de relations entre entités nommées, ce qui permet la construction d’une base de connaissance (Surdeanu and Ji, 2014), le résumé automatique (Nobata et al., 2002), etc… Nous nous intéressons ici aux phénomènes de structurations qui les entourent.
Nous distinguons ici deux types d’éléments structurels dans une entité nommée. Les premiers sont des sous-chaines récurrentes, que nous appellerons les affixes caractéristiques d’une entité nommée. Le second type d’éléments est les tokens ayant un fort pouvoir discriminant, appelés des tokens déclencheurs. Nous détaillerons l’algorithme que nous avons mis en place pour extraire les affixes caractéristiques, que nous comparerons à Morfessor (Creutz and Lagus, 2005b). Nous appliquerons ensuite notre méthode pour extraire les tokens déclencheurs, utilisés pour l’extraction d’entités nommées du Français et d’adresses postales.
Une autre forme de structuration pour les entités nommées est de nature syntaxique, qui suit généralement une structure d’imbrications ou arborée. Nous proposons un type de cascade d’étiqueteurs linéaires qui n’avait jusqu’à présent jamais été utilisé pour la reconnaissance d’entités nommées, généralisant les approches précédentes qui sont capables de reconnaitre uniquement des entités de profondeur limitée ou qui ne peuvent pas modéliser certaines particularités des entités nommées structurées.
Tout au long de cette thèse, nous comparons deux méthodes par apprentissage automatique, à savoir les CRF et les réseaux de neurones, dont nous présenterons les avantages et inconvénients.
mots clés
reconnaissance des entités nommées, entités nommées structurées, apprentissage automatique, champs aléatoires conditionnels, réseaux de neurones
Outils libres open source
Segmenteur étiqueteur makovien (SEM) : segmentation et annotation de textes en français. Accessible à l’adresse : [->https://github.com/YoannDupont/SEM]
Publications
Articles de revue avec comité de lecture
DINARELLI, Marco et DUPONT, Yoann.
Modélisation de dépendances entre étiquettes dans les réseaux neuronaux récurrents.
In: Revue TAL. 2017, vol. 58, no 1. (accepté)
Conférences internationales
DUPONT, Yoann, DINARELLI, Marco, TELLIER, Isabelle and LAUTIER, Christian.
Structured Named Entity Recognition by Cascading CRFs.
In: CICling. 2017.
article
DUPONT, Yoann, DINARELLI, Marco and TELLIER, Isabelle.
Label-Dependencies Aware Recurrent Neural Networks (Prix du meilleur programme CICling 2017).
In: CICling. 2017.
article
TELLIER, Isabelle, MAKHLOUF, Zineb and DUPONT, Yoann.
Sequential Patterns of POS Labels Help to Characterize Language Acquisition.
In: DMNLP @ PKDD/ECML. 2014. p. 129-142.
article
TELLIER, Isabelle, DUPONT, Yoann, ESHKOL-TARAVELLA, Iris and WANG, Ilaine.
Adapt a Text-Oriented Chunker for Oral Data: How Much Manual Effort Is Necessary?
In: IDEAL. 2013. p. 226-233.
article
TELLIER, Isabelle and DUPONT, Yoann.
How Symbolic Learning Can Help Statistical Learning (and vice versa).
In: RANLP 2013. p. 649-658.
article
Conférences nationales
DUPONT, Yoann.
Exploration de traits pour la reconnaissance d’entités nommées du Français par apprentissage automatique (Prix du meilleur article RECITAL 2017).
In: TALN-RECITAL. 2017.
article
DUPONT, Yoann, DINARELLI, Marco et TELLIER, Isabelle.
Réseaux neuronaux profonds pour l’étiquetage de séquences.
In: TALN-RECITAL. 2017.
article
DUPONT, Yoann, TELLIER, Isabelle, LAUTIER, Christian, et DINARELLI, Marco.
Extraction automatique d’afxes pour la reconnaissance d’entités nommées chimiques.
In: EGC. 2016.
poster
MAKHLOUF, Zineb, DUPONT, Yoann, et TELLIER, Isabelle.
Caractériser l’acquisition d’une langue avec des patrons d’étiquettes morpho-syntaxiques.
In: JADT. 2014.
article
TELLIER, Isabelle, DUPONT, Yoann, ESHKOL-TARAVELLA, Iris et WANG, Ilaine.
Peut-on bien chunker avec de mauvaises étiquettes POS ?
In: TALN. 2014. p. 125-136.
article
TELLIER, Isabelle et DUPONT, Yoann.
Apprentissage symbolique et statistique pour le chunking : comparaison et combinaisons.
In: TALN-RECITAL 2013.
article
CONSTANT, Matthieu, TELLIER, Isabelle, DUCHIER, Denys, DUPONT, Yoann, Anthony Sigogne, Sylvie Billot
Intégrer des connaissances linguistiques dans un CRF: application à l’apprentissage d’un segmenteur-étiqueteur du français. In: TALN 2011. p. 321.
article
Démonstrations
DUPONT, Yoann et PLANCQ, Clément.
Un étiqueteur en ligne du Français. session démonstration de TALN-RECITAL, 2017, p. 15.
article
DUPONT, Yoann et TELLIER, Isabelle.
Un reconnaisseur d’entités nommées du Français.
In: TALN. 2014. p. 40-41.
article
TELLIER, Isabelle, DUPONT, Yoann et COURMET, Arnaud.
Un segmenteur-étiqueteur et un chunker pour le français.
In: JEP-TALN-RECITAL 2012.
article