French BookNLP (versant français du projet Multilingual BookNLP)

Direction du projet

Thierry Poibeau, Lattice (CNRS & ENS/PSL & Université Sorbonne nouvelle)

Participants

Thierry Poibeau, Lattice (CNRS & ENS/PSL & Université Sorbonne nouvelle)

Frédérique Mélanie-Becquet, Lattice (CNRS & ENS/PSL & Université Sorbonne nouvelle) : coordination

Claude Grunspan, Lattice (CNRS & ENS/PSL & Université Sorbonne nouvelle) : annotation

Jean Barré, Lattice (CNRS & ENS/PSL & Université Sorbonne nouvelle) : annotation

Olga Seminck, Lattice (CNRS & ENS/PSL & Université Sorbonne nouvelle) : annotation

Clément Plancq, MSH Val de Loire (CNRS & Université de Tours & Université d’Orléans : annotation, développements informatiques

Laurette Chardon, CRISCO (Université de Caen Normandie) : annotation, développements informatiques

Ioana Galleron, Lattice (CNRS & ENS/PSL & Université Sorbonne nouvelle) : annotation

Frédéric Landragin, Lattice (CNRS & ENS/PSL & Université Sorbonne nouvelle) : conseiller spécial

Motasem Alrahabi, ObTIC (SCAI – Sorbonne Université) : annotation

Johanna Cordova, ObTIC (SCAI – Sorbonne Université) : annotation

URL du projet

https://github.com/lattice-8094/fr-litbank

Description

Le projet BookNLP vise à développer une chaîne logicielle pour l’analyse de grands corpus littéraires, en lien avec le projet Multilingual Book NLP de David Bamman (https://people.ischool.berkeley.edu/~dbamman/). Multilingual Book NLP vise à développer des chaînes de traitement pour plusieurs langues, mais le français n’est pas inclus. C’est ce manque que ce projet vise à combler.

Une équipe de chercheurs autour de David Bamman a développé la suite BookNLP (https://github.com/dbamman/book-nlp), permettant l’annotation massive de romans, pour mener des études qualitatives et quantitatives sur ce type de corpus (structure des romans, réseaux de personnages, etc.). L’annotation concerne essentiellement la référence aux personnages et à certaines autres entités (lieux, certains artefacts), ainsi que les chaînes de coréférence liées.

MultiLingual BookNLP (https://securegrants.neh.gov/publicquery/main.aspx?f=1&gn=HAA-271654-20) est un projet en cours à Berkeley visant à redévelopper la chaîne initiale et à l’étendre à cinq autres langues. Le français n’est pas compris dans le projet de Berkeley, aussi a-t-on entrepris de développer les ressources nécessaires, en coordination avec le projet de Berkeley.

L’idée est d’éviter autant que possible de concevoir des traitements spécifiques (sans se l’interdire non plus, si nécessaire), mais de réutiliser au maximum des outils existants. Les outils de traitement automatique des langues fonctionnant généralement par apprentissage, une grosse partie du travail consiste à développer les corpus nécessaires à l’entraînement (c’est-à-dire à la mise au point) des systèmes d’annotation visés. Pour le français, on compte repartir du corpus Democrat, développé dans le cadre du projet ANR du même nom (https://www.lattice.cnrs.fr/democrat/ et https://www.ortolang.fr/market/corpora/democrat pour les ressources)

Pour appréhender les expressions référentielles et les chaînes de référence, la démarche suivie dans le cadre de Democrat a été une combinaison des méthodes issues de la linguistique, du traitement automatique des langues et de l’analyse statistique de données textuelles. Une fois les phénomènes définis sous la forme de choix de « marquables » (éléments de base devant être annotés) et d’un schéma d’annotation défini en fonction de celui de Berkeley, il s’agira d’annoter manuellement un ensemble de textes répartis selon les périodes et les genres retenus. Les annotations du projet Democrat seront « recyclées » pour correspondre au schéma Multilingual BookNLP. Les premières expérimentations ont montré que les deux schémas (Democrat et BookNLP) étaient largement compatibles, même si l’annotation Democrat devra être complétée. Les marquables devront en particulier être « typés » et d’autres ajouts spécifiques sont aussi à prévoir (comme l’annotation des séquences de dialogue, tâche qui pourra probablement être automatisée en partie).

Le corpus Democrat est disponible librement, avec une licence Creative Commons. Le corpus français BookNLP et les outils liés seront aussi mis à disposition et réutilisables librement.

Voir aussi dans «Projets»

Opérations Labex EFL Projet ANR « COMPLETE » Projet ANR « MEDIALEX »