Accueil > Thèmes de recherche > Méthodes et outils

Methods and tools

par Thierry POIBEAU - publié le , mis à jour le

Methodological choices in Corpus Linguistics

Research in the lab, in all operations and subprojects, is based mostly on studies run on various types of corpora. We thus analyse data from different fields and genres (descriptive, narrative..., scientific research papers, literary texts, etc.). For French studies, this is a necessity, given the absence (up to now) of reliable reference corpora. For contrastive studies, we use ’comparable’ corpora rather than translation ; and for diachronic studies, the corpora are chosen on the basis of our hypotheses on functional changes.

We also rely on data from psycholinguistic experiments, with behavioural studies of participants reacting to verbal stimuli.

Développement de ressources et d’outils de traitement automatique pour l’analyse linguistique

Abordés ainsi que l’on vient de l’indiquer, les travaux prévus dans les opérations seront complétés et accompagnés par la conception et l’exploitation d’outils TAL pour l’analyse linguistique, dans l’esprit de ce que B. Habert appelle la "linguistique à l’instrument" (cf. "Portrait de linguiste(s)", www.revue-texto.net). L’idée générale est de développer des programmes informatiques qui aident le linguiste dans son travail sur corpus, en lui permettant (1) d’extraire et d’examiner toutes les occurrences du phénomène linguistique qu’il étudie, (2) d’annoter chaque exemple de manière détaillée (formes de surface présentes, constructions syntaxiques, marques intonatives, valeurs sémantiques de ces différents éléments), et enfin (3) de mettre en évidence des corrélations entre les traits ainsi dégagés, sous forme de règles ou de tendances statistiques.

Le laboratoire a commencé à développer durant le précédent quadriennal de tels systèmes (Analor) pour l’analyse de l’intonation et pour l’analyse sémantique de marqueurs grammaticaux (Anasem). Dans le projet soumis, nous nous proposons de développer de manière très systématique ces outils (notamment en y adjoignant la syntaxe, grâce à l’intégration de l’analyseur Syntex développé par D. Bourigault) en construisant une plate-forme logicielle dans laquelle seront réunis tous ces outils. Cet "instrument" sera utilisé dans la plupart des travaux menés dans le laboratoire, ce qui permettra de l’affiner et de l’améliorer en l’ajustant aux besoins de chaque étude, l’objectif à terme étant, plus largement, d’offrir à la communauté des linguistes un système de qualité, avec un grand éventail d’utilisations.