logo democratProjet ANR DEMOCRAT
  • image01
  • image02
  • image03
  • image04

Laboratoires partenaires

  • Lattice
  • Icar
  • Ihrim
  • Lilpa

Organismes tutelles

  • CNRS
  • ANR

Linguistique outillée

En parallèle de la constitution et de l'annotation du corpus, ont été et sont encore expérimentées de nouvelles modalités d'analyse qualitative et quantitative, avec notamment des mesures adaptées aux chaînes de référence et la mise au jour d'une procédure d'analyse typique, facilitant les comparaisons. L'interface graphique et la bibliothèque de macros de TXM évolue ainsi avec DEMOCRAT. Si des textes ont fait par ailleurs l'objet d'annotations connexes, cela permet des analyses croisées.

La mise en œuvre d’une plateforme d’annotation, construite sur la plateforme TXM et enrichie par les fonctionnalités d’annotation dynamique d’ANALEC, permet de fournir un cadre unifié pour l’annotation efficace et ergonomique du corpus.

Etat de l'art et positionnement

Notre projet est motivé par un double constat :

  1. Il existe désormais une multitude d’outils d’annotation (manuelle) de corpus écrits, et leur nombre augmente d’année en année, mais très peu d’entre eux savent gérer correctement des structures telles que les CR qui couvrent potentiellement toute la longueur d’un texte. Trois logiciels d’annotation figurent parmi les plus discutés (cf. Landragin, 2011, Muzerelle et al., 2012) : CADIXE (Bessieres et al., 2001) qui permet d’annoter les entités mais pas les relations anaphoriques, la plateforme d’analyse multi-niveaux open source MMAX 2 (Müller & Strube, 2006), qui possède une interface peu conviviale et qui complique le travail d’annotation, GLOZZ (Widlöcher & Mathet, 2009) qui permet l’annotation des entités et leurs relations. Mais les deux derniers logiciels présentent l’inconvénient de ne pas comporter les fonctionnalités de représentation et d’analyse que l’on attendrait d’eux pour ce qui concerne les CR, comme de pouvoir visualiser les différentes chaînes d’un texte sous la forme de graphes, de mettre en relief des spécificités morphosyntaxiques ou sémantiques d’une chaîne, d’identifier automatiquement la structure d’une chaîne (en utilisant par exemple un système de motifs, cf. Mellet & Longrée 2009), de calculer des indices numériques à partir des éléments annotés (calcul de saillance, notamment, cf. Landragin 2011). C’est ce constat qui a amené les chercheurs du laboratoire LaTTICe à développer leur propre outil d’annotation : ANALEC (Landragin et al., 2012). Celui-ci permet de visualiser des CR, et, tout en les visualisant, de continuer à annoter les expressions référentielles, mais, de plus, il permet de modifier en cours de travail la structure des annotations, autorisant ainsi une souplesse que ne présentent pas les outils d’annotation de l’état de l’art.
  2. Le processus qui conduit à l’utilisation d’un outil par une large communauté est un processus difficilement contrôlable. Il nous faut reconnaître que, malgré ses qualités, ANALEC peine à trouver une place durable dans le paysage de la recherche linguistique. Il est certes utilisé régulièrement par plusieurs chercheurs dans des laboratoires français (pas seulement ceux correspondant aux partenaires de ce projet) et même étrangers (Université de Neuchâtel, notamment), mais il ne s’ancre pas dans un contexte de diffusion large, incluant ateliers de tutorat et d’échanges pour utilisateurs, journées de formation, etc. Au contraire, la plateforme TXM développée dans le laboratoire ICAR puis dans le laboratoire IHRIM se caractérise par cette force et est utilisée par une vaste communauté de chercheurs en sciences humaines (linguistes, géographes, historiens, etc.), et ce avec des améliorations constantes.

En résumé, plutôt que de placer des efforts humains et financiers dans ANALEC, il nous semble beaucoup plus bénéfique de le faire pour TXM. Les fonctionnalités d’annotation n’étant pas encore pleinement intégrées à TXM (elles existent sous la forme de macros prototypes, pour des annotations au niveau des mots), nous proposons donc dans ce projet le développement d’une interface d’annotation complète pour TXM, inspirée par celle d’ANALEC, c’est-à-dire reprenant toutes les qualités de celui-ci en termes de caractère dynamique de l’annotation et d’adaptabilité aux structures que sont les CR, tout en bénéficiant des outils et interfaces analytiques disponibles dans TXM (listes de fréquences, listes de cooccurrents, concordanciers, graphiques de progression, etc.) offrant des possibilités inédites d’accès aux corpus pour le travail d’annotation. Nous proposons également de faire un premier pas vers l’intégration de fonctionnalités d’annotation et d’analyse automatiques basées sur des modèles statistiques appris par apprentissage automatique, dans la suite d’une première expérimentation faite au LaTTICe (Désoyer et al., 2014).

Références bibliographiques de cette page

HEIDEN S., 2010, “The TXM Platform : Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme”. In K. I. Ryo Otoguro (ed.), 24th Pacific Asia Conference on Language, Information and Computation - PACLIC24, p. 389-398.

HEIDEN S. & LAVRENTIEV A., 2012, “The TXM Portal Software giving access to Old French Manuscripts Online”. Proceedings of the 1st Workshop on Adaptation of Language Resources and Tools for Processing Cultural Heritage Objects, LREC, Istanbul, Turkey.

HEIDEN S., MAGUE J.-P., PINCEMIN B., 2010, « TXM : Une plateforme logicielle open-source pour la textométrie – conception et développement”, in S. Bolasco, I. Chiari, L. Giuliano (eds), Statistical Analysis of Textual Data -Proceedings of 10th International Conference JADT 2010, Edizioni Universitarie di Lettere Economia Diritto, Rome, 9-11 juin 2010.

HINRICHS E.W., KÜBLER S., NAUMANN K., 2005, “A Unified Representation for Morphological, Syntactic, Semantic, and Referential Annotations”. Proceedings of the Workshop on Frontiers in Corpora Annotation II Pie in the Sky. Ann Arbor, 13-20.

LANDRAGIN F., 2011, « Une procédure d’analyse et d’annotation de chaînes de référence dans des textes écrits », Corpus 10, http://corpus.revues.org, 61-80.

LANDRAGIN F., 2014, « Anaphores et coréférences : analyse assistée par ordinateur », In: Fossard, M. & Béguelin, M.-J. (Eds.), Nouvelles perspectives sur l'anaphore. Points de vue linguistique, psycholinguistique et acquisitionnel, Peter Lang, Berne, pp. 29-54.

LANDRAGIN F., VICTORRI B. & POIBEAU T., 2012, “ANALEC: a New Tool for the Dynamic Annotation of Textual Data”, In: Eighth International Conference on Language Resources and Evaluation (LREC 2012), Istanbul, Turquey, pp. 357-362.

LAVRENTIEV A. & HEIDEN S., 2014, « Exploration textométrique du corpus des dossiers de Bouvard et Pécuchet ». Revue Flaubert, 13, pp. 1-12.

LEFEUVRE A., ANTOINE J.-Y. & SCHANG E., 2014, « Le corpus ANCOR_Centre et son outil de requêtage : application à l’étude de l’accord en genre et en nombre dans les coréférences et anaphores en français parlé », Actes du quatrième congrès mondial de linguistique française (CMLF).

MELANIE F. & FUCHS C., 2011, « Elaboration d’une base de données d’exemples de structures comparatives : de la grille d’annotation au système d’interrogation », Corpus, 10, pp. 273-295.

MELANIE F. & LANDRAGIN F., 2014, « Linguistique outillée pour l’étude des chaînes de référence : questions méthodologiques et solutions techniques », Langages, 195, pp. 117-137.

MUZERELLE J., SCHANG E., ANTOINE J.-Y., ESHKOL I., MAUREL D., BOYER A., NOUVEL D., 2012, « Annotations en CR et anaphores dans un corpus de discours spontané en français », in Neveu F. et al. (éds), 3ième Congrès Mondial de Linguistique Française, 2497-2516.

NAVARRETTA C., 2011, Antecedent and Referent Types of Abstract Pronominal Anaphora, in Proceedings of the Workshop ‘Beyond Semantics : Corpus-based investigations of Pragmatic and Discourse Phenomena, Germany, Göttingen, 99-110.

NAVARRETTA C., 2009, Co-referential chains and discourse topic shifts in parallel and comparable corpora, Procesamiento del lenguaje natural 42, 105-12.

PINCEMIN B., GUILLOT C., HEIDEN S. & LAVRENTIEV A., 2008, « Usages linguistiques de la textométrie. Analyse qualitative de la consultation de la Base de Français Médiéval via le logiciel Weblex », Syntaxe et Sémantique, 9, 87-110.

POIBEAU T., 2007, “Semantic annotation: Mapping text to ontologies”. In the International Journal of Metadata, Semantics and Ontologies (IJMSO), Interscience publishing, 2/2, 67-78.

SASAKI F., WEGENER C., WITT A., METZING D., PÖNNINGHAUS J., 2002, “Co-reference annotation and resources : a multi-lingual approach of typologically diverse languages”, in Proceedings of the 3nd International Conference on Language Resources and Evaluation, LREC 2002.

SALMON-ALT S., 2002, Le projet ANANAS: Annotation Anaphorique pour l’Analyse Sémantique de Corpus, Conférence annuelle sur le traitement automatique des langues naturelles No9, Nancy, FRANCE (24/06/2002).

TUTIN A.,2002, “A corpus-based study of pronominal anaphoric expressions in French”, Proceedings of DAARC 2002 (Discourse Anaphora and Anaphora Resolution), Lisbon, 18-20 september 2002.

VAN DEEMTER K. & KIBBLE R., 2000, « On Coreferring: Coreference Annotation in MUC and Related Schemes », Computational Linguistics 26(4), 615-623.

WIDLÖCHER A., MATHET Y., 2009, « La plate-forme GLOZZ: environnement d’annotation et d’exploration de corpus », Actes TALN 2009.

Haut de page