Présentation du projet
Depuis le début des années 1980, ont été lancés des projets de grande envergure pour la constitution de corpus oraux dans les langues de grande diffusion. Conjointement, des consortiums internationaux de coordination de projets ont vu le jour (ex. Clarin ). Dans ce contexte foisonnant, les français ont pris conscience du retard accumulé dans la constitution et l’exploitation des corpus oraux. C’est sans doute la raison pour laquelle de nombreux projets visant au développement de larges corpus de français parlé ont vu le jour au cours de ces 20 dernières années. Plus récemment, des structures de mutualisation et d’échanges de ressources ont été développées à l’échelle nationale (voir la mise en place du Centre de Ressources pour la Description de l’Oral). Trois questions fondamentales sont associées à ces entreprises de récolte, d’exploitation et d’hébergement de corpus oraux : l’échantillonnage des corpus, les conventions de transcription, les types d’annotation fournis, à laquelle est associée la question des standards d’annotation, question majeure pour la. prosodie qui, pour l’essentiel, reste le parent pauvre. Peu de corpus sont annotés et quand ils le sont, la transcription repose sur des présupposés théoriques trop forts pour être mutualisables. C’est le cas de TOBI imposé de facto comme norme pour l’annotation prosodique. C’est également le cas de C-ORAL-ROM où l’annotation est étroitement dépendante de la notion d’acte de langage telle que la conçoit E. Cresti. De même, le traitement syntaxique des corpus oraux reste pauvre, se réduisant le plus souvent à la lématisation et l’étiquetage en parties du discours.
Dans ce contexte, notre projet est consacré à l’élaboration d’un corpus de référence de français parlé échantillonné en différents genres discursifs et doté d’annotations prosodiques et syntaxiques exploitables pour l’analyse du statut de la prosodie dans le discours, de ses relations avec la syntaxe.et la structure informationnelle.