Offre de post-doctorat : analyse automatique d’un grand corpus littéraire par des techniques de TAL avancées

Analyse automatique d’un grand corpus littéraire : l’exemple du roman dit « populaire »

Post-doctorat de 12 mois, au Lattice (Montrouge & Paris), financé par PRAIRIE (Paris Artificial Intelligence Research Institute)

Dominique Legallois, Lattice, dominique.legallois@sorbonne-nouvelle.fr
Thierry  Poibeau, Lattice, thierry.poibeau@ens.fr



La période récente a vu l’apparition de gros corpus en littérature (plusieurs centaines, voire milliers de romans) et d’outils de traitement automatique des langues (TAL) à la fois robustes et efficaces. Il est par exemple aujourd’hui possible d’obtenir l’analyse syntaxique de l’œuvre d’un auteur ou d’un groupe d’auteurs en quelques minutes ou quelques heures, avec une qualité raisonnable.

L’utilisation de techniques de TAL avancées pour l’analyse de corpus littéraire a permis des études novatrices et originales, que ce soit pour modéliser le suspense, la personnalité des personnages de roman ou leur réseau d’interaction. Il s’agit d’un thème de recherche très actif dans le monde anglo-saxon (cf. les recherches de M. Algee-Hewitt, D. Bamman ou A. Piper, pour ne citer que quelques exemples), et beaucoup moins chez nous, bien qu’il existe aussi des outils de TAL performants pour le français et des corpus accessibles.

Le projet de post-doctorat vise donc à utiliser des techniques avancées de TAL permettant l’analyse de grands corpus littéraires, essentiellement des romans. On pourra ainsi chercher à caractériser le roman dit « populaire » en français, au 19e et 20e siècle. Le roman populaire constitue une catégorie mixte, à la fois esthétique et sociale, dont la définition aussi bien intensionnelle qu’extensionnelle pose bien des difficultés. Il ne s’agit pas d’un genre littéraire, mais bien plutôt d’un ensemble de sous-genres de fiction (romans de cape et d’épée, romans à l’eau de rose, fresques historiques, romans d’aventures, etc.) qui vise un large public.

Le corpus d’analyse sera constitué d’ouvrages disponibles sous forme électronique, à partir des recensements opérés par la critique et en ciblant des collections. L’objectif est la caractérisation linguistique et narrative de ces romans, en prenant en compte, entre autres :

—  l’identification des rythmes narratifs dans les œuvres : progression des thèmes (topic modeling, dynamic topic modeling, ou autres techniques),
—  l’application de l’analyse des « sentiments » adaptée au roman,
—  l’identification des patrons syntaxiques, des cooccurrences et leur distribution dans les textes (topologie textuelle),
—  l’identification de ruptures et de récurrences narratives à partir, par exemple, de l’application de la  sémantique latente à la segmentation textuelle,
—  l’analyse diachronique des sous-genres,
—  l’analyse contrastive du roman populaire par rapport au roman dit « sérieux » (lexique, chapitrage, paragraphes, etc.).

Le résultat attendu d’une telle analyse est la définition d’un archétype et sa confrontation avec les éléments dégagés par la critique littéraire. L’analyse s’appuiera sur les outils existants, mais nécessitera aussi le développement d’outils propres, à partir d’annotations manuelles, forcément limitées. Le poste exige donc une certaine familiarité avec les techniques récentes d’apprentissage automatique utilisées en TAL.

Le sujet n’est pas figé. Toute proposition alternative sera étudiée, du moment qu’elle fait appel à l’analyse de grand corpus littéraire avec des techniques de TAL avancées (à l’inverse, les projets d’édition électronique par exemple ne rentrent pas dans le cadre de cette proposition et ne seront pas étudiés).


Compétences requises

—  Bonne connaissance générale du TAL et des principaux outils de traitement de corpus existants
—  Compétences avancées en programmation (de préférence en python)
—  Bonne connaissance des techniques d’apprentissage artificielle récentes (plongements de mots, réseaux de neurones)
—  Intérêt pour la littérature française et les humanités numériques


Détails pratique

Post-doctorat de 12 mois, se déroulant au Lattice (École normale supérieure, 1 rue Maurice Arnoux, 92120 Paris). Le post-doctorat est rémunéré suivant la grille de rémunération CBNRS, en fonction du profil et de l’expérience du candidat (post-doctorat financé dans le cadre de la Chaire Prairie de Thierry Poibeau).


Comment postuler ?

Envoyer un CV détaillé avec les rapports de thèse et éventuellement un article récent en lien avec le post-doctorat, par mail, à Thierry Poibeau et Dominique Legallois (cf. mail ci-dessus) dès que possible. Les candidatures seront closes le 15 février pour une prise de poste prévue au 1er avril 2020.




Références

Angenot M. Le Roman populaire : recherches en paralittérature,  Presses de l’Université du Québec, 1975.
Archers J. et Jockers,  M. The Bestseller Code: Anatomy of the Blockbuster Novel, St. Martin’s Press, 2016.
Bamman D. et Smith N. “Unsupervised Discovery of Biographical Structure from Text”. Transactions of the Association for Computational Linguistics, 2 (2014) 363–376.
Baroni R. La tension narrative : suspense, curiositié, surprise, Seuil, 2007.
Compère D. Dictionnaire du roman populaire francophone, Nouveau Monde éditions, 2007.
Compère D.  Les romans populaires, Presses Sorbonne Nouvelle, coll. « Les fondamentaux de la Sorbonne nouvelle », 2012.
Eco U. De superman au surhomme,  Grasset, 1993.
Letourneux M. Fictions à la chaîne : littératures sérielles et culture médiatique, Seuil 2017.
Nathan M. Anthologie du Roman Populaire : 1836-1918, Union générale d’éditions, 1985.
Novakova, I., et D. Siepmann, Phraseology and style in subgenres of the novel: a synthesis of corpus and literary perspectives,  Palgrave Macmillan , 2019.
Piper A., Algee-Hewitt M., Sinha K., Ruths D. and Vala H. Studying Literary Characters and Character Networks. DH 2017.

Voir aussi dans «Post-doctorats»