Opération EFL KA2/APP2 – Cartographie automatique d’un domaine scientifique

Le but de cette action est de constituer la cartographie d’un domaine scientifique, en analysant automatiquement un corpus d’articles scientifiques en relevant.

Ce projet est la fusion des opérations KA2 « Induction automatique de patrons lexico-grammaticaux représentatifs à partir de textes » et APP2 « Conception et développement de nouvelles méthodes d’accès au contenu textuel ».

Le but de cette action est de constituer la cartographie d’un domaine scientifique, en analysant automatiquement un corpus d’articles scientifiques en relevant.

L’action a permis le recrutement par le Labex pendant 18 mois (mars 2015-septembre 2016) de Kata Gabor. Celle-ci a travaillé sur le recueil d’un corpus d’articles scientifiques issu des conférences ACL, dont elle a annoté les concepts principaux (tâches, méthodes, outils, auteurs…) à l’aide de terminologies existantes. Elle s’est ensuite concentrée sur l’identification de paires de concepts apparaissant dans une même phrase, en vue de repérer automatiquement les relations possibles qu’ils peuvent entretenir. Différentes méthodes pour caractériser ces paires (vecteurs distributionnels, portions de texte les séparant, patrons extraits automatiquement…) et les regrouper entre elles (par des méthodes de clustering) ont été testées et évaluées, relativement à des données de référence annotées à la main. Deux stagiaires de niveau M1 (stages de 4 mois chacun financés par le Labex en 2016) ont aussi contribué à la constitution de ces données de référence. Ce projet a donné lieu à plusieurs publications (cf. ci-dessous) et sera prolongé par un nouveau post-doc de 18 mois à commencer en mars 2017, pour ajouter la prise en compte de l’analyse syntaxique des textes dans l’identification de relations entre concepts scientifiques y figurant.

Responsables

  • Isabelle Tellier
  • Haïfa Zargayouna

Partenaires

  • Lattice (Isabelle Tellier)
  • LIPN (Davide Buscaldi, Thierry Charnois, Haïfa Zargayouna)

Financement

  • 1 post-doc de 18 mois (Kata Gabor)
  • 2 stages de 4 mois (Nidia Hernandez, Kagoro Dembele)

Publications

  • K. Gabor, H. Zargayouna, D. Buscaldi, I. Tellier, T. Charnois 2016 : {Unsupervised Relation Extraction in Specialized Corpora Using Sequence Mining, Advances in Intelligent Data Analysis XV} (IDA 2016), {LNCS} 9897, p.237-248, Stockholm (Suède)
  • K. Gabor, I. Tellier, Charnois, Zargayouna, Buscaldi 2016 : {Détection et classification non supervisées de relations sémantiques dans des articles scientifiques, Traitement Automatique des Langues Naturelles} (TALN 2016), Paris.
  • K. Gabor, H. Zargayouna, D. Buscaldi, I. Tellier, T. Charnois 2016 : {Semantic Annotation of the ACL Anthology Corpus for the Automatic Analysis of Scientific Literature}, LREC, Portoroz (Slovenie).
  • K. Gabor, H. Zargayouna, I. Tellier, D. Buscaldi, T. Charnois 2016 : {A Typology of Semantic Relations Dedicated to Scientific Literature Analysis, workshop « Semantics, Analitics, Visualisation: Enhancing Scholarly Data »} (SAVE-SD 2016), to be published in {LNCS}, Montreal (Canada).

Voir aussi dans «Opérations Labex EFL»