L’opération EIOMSIT (Eléments Initiaux, Ordre des Mots, Structures Informationnelle et Textuelle) avait pour but l’étude des corrélations entre les éléments initiaux (EI, c’est-à-dire qui précèdent le sujet et/ou le verbe) et certains « faits linguistiques » qui se produisent dans la phrase d’accueil ainsi que dans la séquence textuelle (phrases qui suivent et qui précèdent).
Cette opération a nécessité la création d’une base de donnée. La base EIOMSIT est constituée à partir du corpus Chambers-Le Baron corpus of Research Articles in French. Elle contient environ 266 000 mots, ainsi qu’un ensemble d’annotations manuelles : soit 9750 sujets annotés (ceux correspondants aux critères retenus par le groupe) et 4800 EI.
Lien vers la base :
La base de données complète est actuellement accessible uniquement avec un mot de passe (…en cours d’évolution et d’actualisation…).
Article qui décrit le contenu de la base :
Frédérique Mélanie-Becquet, Sophie Prévost. Eléments initiaux : combinaisons et schémas préférentiels dans un corpus d’articles scientifiques. Corpus, Bases, Corpus, Langage – UMR 7320, 2014, Eléments initiaux dans la phrase : approches inter-genres et inter-langues, pp.29-60. ⟨http://corpus.revues.org/2427⟩.