En parallèle de la constitution et de l'annotation du corpus, ont été et sont encore expérimentées de nouvelles modalités d'analyse qualitative et quantitative, avec notamment des mesures adaptées aux chaînes de référence et la mise au jour d'une procédure d'analyse typique, facilitant les comparaisons. L'interface graphique et la bibliothèque de macros de TXM évolue ainsi avec DEMOCRAT. Si des textes ont fait par ailleurs l'objet d'annotations connexes, cela permet des analyses croisées.
La mise en œuvre d’une plateforme d’annotation, construite sur la plateforme TXM et enrichie par les fonctionnalités d’annotation dynamique d’ANALEC, permet de fournir un cadre unifié pour l’annotation efficace et ergonomique du corpus.
Notre projet est motivé par un double constat :
En résumé, plutôt que de placer des efforts humains et financiers dans ANALEC, il nous semble beaucoup plus bénéfique de le faire pour TXM. Les fonctionnalités d’annotation n’étant pas encore pleinement intégrées à TXM (elles existent sous la forme de macros prototypes, pour des annotations au niveau des mots), nous proposons donc dans ce projet le développement d’une interface d’annotation complète pour TXM, inspirée par celle d’ANALEC, c’est-à-dire reprenant toutes les qualités de celui-ci en termes de caractère dynamique de l’annotation et d’adaptabilité aux structures que sont les CR, tout en bénéficiant des outils et interfaces analytiques disponibles dans TXM (listes de fréquences, listes de cooccurrents, concordanciers, graphiques de progression, etc.) offrant des possibilités inédites d’accès aux corpus pour le travail d’annotation. Nous proposons également de faire un premier pas vers l’intégration de fonctionnalités d’annotation et d’analyse automatiques basées sur des modèles statistiques appris par apprentissage automatique, dans la suite d’une première expérimentation faite au LaTTICe (Désoyer et al., 2014).
HEIDEN S., 2010, “The TXM Platform : Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme”. In K. I. Ryo Otoguro (ed.), 24th Pacific Asia Conference on Language, Information and Computation - PACLIC24, p. 389-398.
HEIDEN S. & LAVRENTIEV A., 2012, “The TXM Portal Software giving access to Old French Manuscripts Online”. Proceedings of the 1st Workshop on Adaptation of Language Resources and Tools for Processing Cultural Heritage Objects, LREC, Istanbul, Turkey.
HEIDEN S., MAGUE J.-P., PINCEMIN B., 2010, « TXM : Une plateforme logicielle open-source pour la textométrie – conception et développement”, in S. Bolasco, I. Chiari, L. Giuliano (eds), Statistical Analysis of Textual Data -Proceedings of 10th International Conference JADT 2010, Edizioni Universitarie di Lettere Economia Diritto, Rome, 9-11 juin 2010.
HINRICHS E.W., KÜBLER S., NAUMANN K., 2005, “A Unified Representation for Morphological, Syntactic, Semantic, and Referential Annotations”. Proceedings of the Workshop on Frontiers in Corpora Annotation II Pie in the Sky. Ann Arbor, 13-20.
LANDRAGIN F., 2011, « Une procédure d’analyse et d’annotation de chaînes de référence dans des textes écrits », Corpus 10, http://corpus.revues.org, 61-80.
LANDRAGIN F., 2014, « Anaphores et coréférences : analyse assistée par ordinateur », In: Fossard, M. & Béguelin, M.-J. (Eds.), Nouvelles perspectives sur l'anaphore. Points de vue linguistique, psycholinguistique et acquisitionnel, Peter Lang, Berne, pp. 29-54.
LANDRAGIN F., VICTORRI B. & POIBEAU T., 2012, “ANALEC: a New Tool for the Dynamic Annotation of Textual Data”, In: Eighth International Conference on Language Resources and Evaluation (LREC 2012), Istanbul, Turquey, pp. 357-362.
LAVRENTIEV A. & HEIDEN S., 2014, « Exploration textométrique du corpus des dossiers de Bouvard et Pécuchet ». Revue Flaubert, 13, pp. 1-12.
LEFEUVRE A., ANTOINE J.-Y. & SCHANG E., 2014, « Le corpus ANCOR_Centre et son outil de requêtage : application à l’étude de l’accord en genre et en nombre dans les coréférences et anaphores en français parlé », Actes du quatrième congrès mondial de linguistique française (CMLF).
MELANIE F. & FUCHS C., 2011, « Elaboration d’une base de données d’exemples de structures comparatives : de la grille d’annotation au système d’interrogation », Corpus, 10, pp. 273-295.
MELANIE F. & LANDRAGIN F., 2014, « Linguistique outillée pour l’étude des chaînes de référence : questions méthodologiques et solutions techniques », Langages, 195, pp. 117-137.
MUZERELLE J., SCHANG E., ANTOINE J.-Y., ESHKOL I., MAUREL D., BOYER A., NOUVEL D., 2012, « Annotations en CR et anaphores dans un corpus de discours spontané en français », in Neveu F. et al. (éds), 3ième Congrès Mondial de Linguistique Française, 2497-2516.
NAVARRETTA C., 2011, Antecedent and Referent Types of Abstract Pronominal Anaphora, in Proceedings of the Workshop ‘Beyond Semantics : Corpus-based investigations of Pragmatic and Discourse Phenomena, Germany, Göttingen, 99-110.
NAVARRETTA C., 2009, Co-referential chains and discourse topic shifts in parallel and comparable corpora, Procesamiento del lenguaje natural 42, 105-12.
PINCEMIN B., GUILLOT C., HEIDEN S. & LAVRENTIEV A., 2008, « Usages linguistiques de la textométrie. Analyse qualitative de la consultation de la Base de Français Médiéval via le logiciel Weblex », Syntaxe et Sémantique, 9, 87-110.
POIBEAU T., 2007, “Semantic annotation: Mapping text to ontologies”. In the International Journal of Metadata, Semantics and Ontologies (IJMSO), Interscience publishing, 2/2, 67-78.
SASAKI F., WEGENER C., WITT A., METZING D., PÖNNINGHAUS J., 2002, “Co-reference annotation and resources : a multi-lingual approach of typologically diverse languages”, in Proceedings of the 3nd International Conference on Language Resources and Evaluation, LREC 2002.
SALMON-ALT S., 2002, Le projet ANANAS: Annotation Anaphorique pour l’Analyse Sémantique de Corpus, Conférence annuelle sur le traitement automatique des langues naturelles No9, Nancy, FRANCE (24/06/2002).
TUTIN A.,2002, “A corpus-based study of pronominal anaphoric expressions in French”, Proceedings of DAARC 2002 (Discourse Anaphora and Anaphora Resolution), Lisbon, 18-20 september 2002.
VAN DEEMTER K. & KIBBLE R., 2000, « On Coreferring: Coreference Annotation in MUC and Related Schemes », Computational Linguistics 26(4), 615-623.
WIDLÖCHER A., MATHET Y., 2009, « La plate-forme GLOZZ: environnement d’annotation et d’exploration de corpus », Actes TALN 2009.
Haut de page