Alignement et comparaison de textes pour les humanités numériques

Philippe Gambette

Groupe de lecture Humanités Numériques — 29 octobre 2020

Cette présentation sera dédiée à plusieurs méthodes fondées sur l’alignement ou la comparaison de textes, à différentes échelles, développées pour les humanités numériques. Je présenterai tout d’abord des travaux menés avec Eleni Kogkitsidou et Jonathan Poinhos pour développer une approche automatique de modernisation de textes des 16e et 17e siècles, fondée sur l’alignement, et montrerai l’impact de cette démarche de normalisation sur plusieurs algorithmes de reconnaissance de noms de lieux.

Je présenterai aussi diverses méthodes de visualisation utiles pour explorer des corpus de textes en soulignant les similarités et les différences entre ces textes à différentes échelles. En particulier, j’illustrerai l’utilisation de diagrammes de Sankey pour aligner plusieurs éditions d’un même texte, comme des recueils de poèmes de Marceline Desbordes-Valmore publiés de 1819 à 1830 ou L’Heptaméron de Marguerite de Navarre. Ce dispositif de visualisation peut aussi être utilisé pour comparer les mots les plus fréquents de deux corpus comparables afin d’illustrer les différences de ces derniers. Je montrerai aussi comme l’utilisation d’arbres de mots, construits avec l’outil TreeCloud, aide à identifier des tendances dans un corpus, en comparant les arbres reconstruits sur des sous-corpus. Ces travaux sur des outils de visualisation ont été menés en collaboration avec Delphine Amstutz, Jean-Charles Bontemps, Aleksandra Chaschina, Hilde Eggermont, Tita Kyriacopoulou, Nadège Lechevrel, Xavier Le Roux, Claude Martineau, William Martinez, Caroline Trotot and Jean Véronis.