Ruiz Fabo Pablo : Concept-based and Relation-based Corpus Navigation: Applications of Natural Language Processing in Digital Humanities

Thèse de doctorat à l'école doctorale transdisciplinaire lettres/sciences de l'ENS sous la direction de Thierry Poibeau, 2017

Directeur de thèse : Thierry Poibeau

Ecole doctorale : Ecole doctorale transdisciplinaire lettres/sciences de l’ENS

Résumé

Navigation en corpus fondée sur les concepts et les relations : Applications du Traitement automatique des langues en Humanités numériques

La recherche en Sciences humaines et sociales repose souvent sur de grands corpus textuels, impossibles de lire en détail. Le Traitement automatique des langues (TAL) identifie des concepts et des acteurs importants dans un corpus et les relations entre eux, ce qui peut fournir une vue d’ensemble utile pour les experts d’un domaine, les aidant à identifier les zones du corpus pertinentes pour leurs recherches. Pour annoter de grands corpus, nous avons appliqué le liage d’entités (Entity Linking), pour identifier des acteurs et concepts. Les relations entre ceux-ci ont été déterminées sur la base d’une chaîne de traitements TAL, qui étiquette des fonctions sémantiques et syntaxiques. Des outils de TAL génériques ont été utilisés. L’efficacité des méthodes de TAL dépend du corpus, et des développements ont été effectués pour mieux s’adapter à nos corpus. Trois corpus ont été analysés. D’abord, les manuscrits de Jeremy Bentham, un corpus de philosophie politique des 18e et 19e siècles. Ensuite, le corpus PoliInformatics, sur la crise financière américaine de 2007. Enfin, le Bulletin des Négociations de la Terre (ENB), qui couvre les sommets internationaux sur la politique climatique, où des traités comme le Protocole de Kyoto ou l’Accord de Paris ont été négociés. Des interfaces de navigation de corpus ont été développées, qui combinent les réseaux et la recherche structurée fondée sur des annotations TAL. Par exemple, l’interface ENB permet de voir les acteurs qui ont exprimé de l’opposition sur un sujet. Les relations entre acteurs et concepts sont exploitées, au-delà de la co-occurrence entre termes. Les interfaces ont été évaluées par des experts de domaine. Nous avons tenté de déterminer si les experts peuvent avoir une meilleure compréhension du corpus grâce aux applications, en trouvant des faits nouveaux. Ceci a été attesté avec l’interface ENB, ce qui est une bonne validation du travail effectué.

Date de soutenance : 23-06-2017

Jury de thèse

  • Valérie Beaudouin, Professeur, Télécom ParisTech (Rapporteure)
  • Jean-Gabriel Ganascia, PU, Université Paris 6 (Examinateur)
  • Elena González-Blanco, Professeur, UNED Madrid (Examinatrice)
  • Thierry Poibeau, DR, CNRS, ENS (Directeur de la thèse)
  • Caroline Sporleder, Professeur, Universität Göttingen (Rapporteure)
  • Isabelle Tellier, PU, Université Paris 3 (Examinatrice)
  • Melissa Terras, Professeur, University College London (Examinatrice)