The EIOMSIT database - Laboratoire Lattice

L’opération EIOMSIT (Eléments Initiaux, Ordre des Mots, Structures Informationnelle et Textuelle) avait pour but l’étude des corrélations entre les éléments initiaux (EI, c’est-à-dire qui précèdent le sujet et/ou le verbe) et certains « faits linguistiques » qui se produisent dans la phrase d’accueil ainsi que dans la séquence textuelle (phrases qui suivent et qui précèdent).

Cette opération a nécessité la création d’une base de donnée. La base EIOMSIT est constituée à partir du corpus Chambers-Le Baron corpus of Research Articles in French. Elle contient environ 266 000 mots, ainsi qu’un ensemble d’annotations manuelles : soit 9750 sujets annotés (ceux correspondants aux critères retenus par le groupe) et 4800 EI.

Lien vers la base :
La base de données complète est actuellement accessible uniquement avec un mot de passe (…en cours d’évolution et d’actualisation…).

Article qui décrit le contenu de la base :
Frédérique Mélanie-Becquet, Sophie Prévost. Eléments initiaux : combinaisons et schémas préférentiels dans un corpus d’articles scientifiques. Corpus, Bases, Corpus, Langage – UMR 7320, 2014, Eléments initiaux dans la phrase : approches inter-genres et inter-langues, pp.29-60. ⟨http://corpus.revues.org/2427⟩.

Voir aussi dans «Databases and corpus»

Democrat Corpus Le corpus Democrat est un corpus textuel annoté en références. 688851 mots, formats TEI et TXM. The BSP Database La Base des Syntagmes Prépositionnels (BSP) comprend plus de 17 800 syntagmes prépositionnels annotés dans un corpus de presse (Le Monde déc. 2000, 2 406 252 mots). The ETE database

La base EIOMSIT regroupe un ensemble de textes issu de Chambers-Le Baron corpus of Research Articles in French pour lesquels les éléments en zone préverbale ont été annotés.

Voir aussi dans «Databases and corpus»