Opération 4.2. TAL et applications au domaine des Humanités numériques

Les enjeux concernent l’extraction d’informations pertinentes pour des besoins à chaque fois particuliers à partir de grands corpus, la mise en relation des données extraites et l’élaboration d’interfaces de visualisation pertinentes pour les utilisateurs. Face à ces défis, le Lattice développe des outils génériques mais adaptables au contexte, et travaille en collaboration avec des équipes partenaires pour ce qui concerne notamment les besoins en matière de visualisation. Jusqu’ici le laboratoire a surtout travaillé sur des cas liés aux sciences sociales (négociations climatiques, corpus PoliInformatics) et au domaine de la philosophie (projet Mapping Bentham). Pour la période à venir, un lien sera fait avec l’analyse du lexique et du discours : représentation des normes, des communautés, etc.

Les développements envisagés sont nombreux. Pour commencer, il s’agit d’explorer l’apport de l’apprentissage profond à l’édition numérique de textes, ou plus précisément à la « publication de données textuelles » (« textual data publishing »), qui se concentre moins sur la présentation au lecteur des différents états d’un texte (édition critique ou génétique), que sur la mise à disposition de corpus balisés aussi bien en ce qui concerne les dimensions grammaticales du texte (tokens, parties du discours, traits morphosyntaxiques, phrases), qu’en ce qui concerne les entités nommées, le discours direct ou indirect, l’expression des sentiments, autant d’informations ayant permis, au cours des dernières années, un renouvellement des perspectives en analyse et histoire littéraires. En ce sens, le laboratoire participe, d’une part, à l’action COST CA16204, qui se propose de mettre à disposition de la communauté cent romans annotés, dans une vingtaine de langues, et d’autre part au projet ANR BASNUM, qui vise à encoder, puis à comparer les éditions successives du Dictionnaire universel de Furetière (1690, 1701, 1702, 1708, 1727). Des systèmes d’analyse et d’annotation fondés sur BERT sont testés dans les deux cas, l’un développé en Allemagne/ Pologne, l’autre conçu à l’INRIA.

En outre, un effort particulier sera fait pour proposer des techniques avancées en matière d’analyse (semi-) automatique du discours littéraire, un domaine quelque peu délaissé jusqu’ici au laboratoire. La présence de grands fonds documentaires (Gallica à la BNF, projet Gutenberg, etc.) offre de nouvelles perspectives en matière de traitement, d’analyse et de visualisation. Les recherches porteront sur la mise au point d’outils, de techniques et de méthodes pour l’analyse de grandes masses de textes : analyse de séquences lexico-grammaticales (motifs), repérage automatique de tournures de style caractéristiques, analyse contrastive et/ou diachronique de corpus, identification des moments-clés d’un texte (suspense, tension narrative, progression narrative), analyse de la topologie textuelle, etc. En lien avec l’opération 4.1, et en mettant à contribution certains de ses résultats, il s’agit également de réinvestir l’analyse des chaînes de coréférence dans la compréhension de la construction du personnage (présence, récurrence, caractérisation), ainsi que de développer un modèle d’annotation des entités spatiales adapté à l’analyse des textes narratifs, qui ne peut pas se contenter de l’identification des entités topographiques. Un projet franco-roumain est en développement en ce sens.

L’offre de formation dans le domaine a considérablement évolué ces dernières années tant à l’ENS (formation commune aux Humanités numériques à l’ENS, Master Humanités numériques de PSL) qu’à l’Université Sorbonne nouvelle (ouverture d’une mineure associée aux licences de sciences du langage et de lettres, ouverture d’un Master Humanités numériques). Il s’agit d’une opportunité dont le laboratoire a su se saisir, d’autant que celle-ci entre parfaitement dans ses projets pour la période à venir.

Collaborations nationales et internationales, universitaires et industrielles :

Le laboratoire a noué des relations avec plusieurs institutions et laboratoires parmi les plus actifs dans le domaine (le médialab de SciencesPo et l’Institut des Systèmes Complexes de Paris-IdF en France, le Stanford Literary Lab aux USA, La British Library et le Turing Institute au Royaume Uni, l’Université de Göttingen en Allemagne, etc.). Rappelons enfin le lien très direct entre ce thème de recherche et les perspectives en matière de formation, tant à l’École normale supérieure / PSL (tronc commun de première année, création d’un Master) qu’à l’Université Sorbonne nouvelle (mise en place d’une mineure HN et ouverture d’un Master Humanités numériques).

Voir aussi dans «Axe 4 : Modélisation, traitements automatiques et applications»

Opération 4.1. Traitement automatique des langues et application On a vu l’émergence extrêmement rapide ces dernières années de nouvelles méthodes d’apprentissage (notamment les approches neuronales ou « apprentissage profond ») : les performances obtenues sur certaines tâches avec ces méthodes obligent à les comprendre, à les tester et à les faire évoluer quand c’est nécessaire.