Projet ANR « ORFEO »

Projet retenu dans le cadre de la programmation "Corpus et outils de la recherche en SHS" de l'Agence Nationale de la Recherche (2012-2016).

Au cours des vingt dernières années, la linguistique de corpus s’est développée grâce à la constitution de corpus dits de référence et a bouleversé le domaine des sciences du langage et du traitement automatique des langues. Ce développement recouvre des enjeux importants. En linguistique théorique, le cadre qui sous-tend les études sur corpus est celui de la grammaire « basée sur l’usage » (Bybee 2006) qui oppose à la conception d’une grammaire unique pour une langue celle de « grammaires multiples » rendant compte des usages écrits et oraux relevant de situations de production variées. En traitement automatique, l’idée s’impose aussi que les outils de TAL, à l’instar des locuteurs, doivent s’adapter en termes de lexique et de grammaire à la diversité des usages. Dans ce panorama, la France occupe une place particulière. Elle s’est dotée récemment d’une infrastructure numérique, le TGE Adonis dont l’objectif est de mutualiser ressources, standards technologies et préservation des données dans les Sciences Humaines en collaboration avec le réseau des centres de gestion de ressources et de technologies linguistiques CLARIN, mais ne possède aucun corpus de référence répondant aux standard internationaux. Il n’est pas réaliste, pour des raisons politiques et financières, d’envisager de le construire dans le cadre d’une ANR. Le projet ORFEO offre une solution alternative : la constitution d’un Corpus d’Etude pour le Français Contemporain (CEFC).
ORFEO a pour objectif de rassembler des données secondaires à partir de corpus existant ou crées pour le projet. Ces données secondaires sont de nature diverse :

  • Méta-données
  • Transcriptions harmonisées
  • Alignement texte et son
  • Annotations
    • Morphologiques (P.O.S)
    • Syntaxiques
    • Segmentations en unité « élémentaires » de texte (macro-syntaxe)
    • Sémantiques
    • Conversationnelles
    • Prosodiques

Corpus et données seront accessibles au travers d’une plate-forme d’interrogation permettant une sélection par les méat-données aux ressources proposées et des recherches à l’aide de requêtes simples (chaine de caractères ou expressions régulières) ou complexes (requêtes sur les différents niveaux d’annotation).
La plate- forme mettra également à disposition des outils d’exploitation libres de droit. Grâce à la mutualisation des résultats de recherches antérieures (ANR Rhapsodie, Annodis, Decoda), l’ensemble (ressources et outils) consultable en open source permettra à des chercheurs en linguistique mais aussi aux personnes intéressées par des données sur le français contemporain (enseignants, étudiants) de constituer un corpus d’étude conforme aux standards internationaux en la matière (3M de mots à l’oral et 15 M de mots d’écrits).
Les utilisateurs seront guidés dans la sélection et l’utilisation des outils par l’accès à des analyses pilotes relevant de différents domaines de la linguistique : morpho-syntaxe, sémantique, analyse du discours et des interactions.

Le stockage, maintenance, curation et archivage pérenne des ressources et des outils sera assuré au travers du service versant Ortolang (Lien vers le site) grâce à la solution mise en place par la TGIR Huma-Num (fusion d’ADONIS et de CORPUS) en lien avec le CINES.

Laboratoires partenaires

LATTICE – Porteur du projet (https://www.lattice.cnrs.fr)

Le LATTICE est une Unité Mixte de Recherche (UMR 8094) sous la double tutelle du CNRS et du Ministère de l’Education et de la Recherche qui est implanté sur deux sites : l’Ecole Normale Supérieure et l’Université Paris 3 Sorbonne Nouvelle est rattaché à titre principal à l’INSHS et à titre secondaire à l’INS2I du CNRS. Les membres du Lattice participant au projet sont Jeanne-Marie Debaisieux, coordinatrice du projet, Isabelle Tellier, Kim Gerdes, Frederic Landragin. Pour ce projet, le laboratoire accueille en outre, Mireille Bilger, de l’université de Perpignan, Catherine Schnedecker de l’université de Strasbourg, Paola Pietrandrea de l’université de Tours, Anne Dister et Catherine Bolly de l’Université de Louvain), Sandrine Caddeo et Marie-Noelle Roubaud de Université de Provence.

MODYCO ( http://www.modyco.fr/)

Le laboratoire Modyco est une Unité Mixte de Recherche (UMR 7114) du CNRS et de l’Université Paris Ouest Nanterre. Il a coordonné deux projets ANR sur les corpus de français parlé : Rhapsodie (Corpus Prosodique de Référence en Français Parlé) et PFC (Phonologie du Français Contemporain). Les membres du partenaire Modyco comprennent Anne Lacheret, coordinatrice du projet Rhapsodie, Sylvain Kahane, Atanas Tchobanov. Le partenaire Modyco accueille également Yann Mathet et Antoine Widlöcher (GREYC) Eric de la Clergerie, Cédric Gendrot (U. Paris3) et trois chercheurs étrangers : Piet Mertens (U. Leuven), Mathieu Avanzi (U. Neuchâtel) et Jean-Philippe Goldman (U. Genève).

ATILF (http://www.atilf.fr/)

Le laboratoire Analyse et Traitement Informatique de la Langue Française (ATILF) est une Unité Mixte de Recherche (UMR 7118) du CNRS et de l’Université Nancy2. Concepteur de Frantext et du système d’interrogation et de gestion des données Stella. Les membres participant aux projets sont Christophe Benzitoun, Evelyne Jacquey, Virginie André, Bertrand Gaiffe et Etienne PetitJean.

LIF (http://www.lif.univ-mrs.fr/)

Le Laboratoire d’Informatique Fondamentale de Marseille (LIF) est une Unité Mixte de Recherche (UMR 6166) du CNRS, de l’université de Provence et de l’université de la Méditerranée. L’équipe Traitement Automatique du Langage Écrit et Parlé (TALEP) du LIF réalise des travaux linguistiques et conçoit des algorithmes et des programmes pour le traitement automatique des langues. Les membres participant au projet sont Frédéric Béchet, Alexis Nasr, Benoit Favre, Thierry Bazillon, José Deulofeu, André Valli et Frédéric Sabio ((U. de Provence et accueilli dans le laboratoire pour le projet).

LORIA (http://www.loria.fr/)

Le LORIA, Laboratoire Lorrain de Recherche en Informatique et ses Applications, est une Unité Mixte de Recherche (UMR 7503) commune au CNRS, à l’INPL, à l’INRIA, à l’UHP et à Nancy 2. Les domaines d’expertise du pôle TALC (Traitement Automatique des Langues et des Connaissances) incluent le traitement automatique des langues et de la parole ; la fouille de textes et les systèmes à base de connaissances ; l’intelligence collective, l’annotation et les technologies du web sémantique. Les membres participant sont Christophe Cerisara, Odile Mella, Dominique Fohr et Denis Jouvet.

CLLE-ERSS (http://w3.erss.univ-tlse2.fr/)

CLLE-ERSS est une des deux composantes de l’UMR 5263, CLLE (Cognition, Langue, Langages, Ergonomie). Elle se donne pour objectif la description scientifique et la modélisation des langues naturelles dans leurs différentes composantes (phonologie, morphologie, syntaxe, sémantique, lexique, discours). Les membres participants au projet sont
Nathalie Rossi-Gensane, Myriam Bras, Cécile Fabre, Lydia-Mai Ho-Dac, Anne Le Draoulec, Marie-Paule Pery-Woodley, Josette Rebeyrolle (Université de Toulouse)

ICAR (http://icar.univ-lyon2.fr/)

Le laboratoire ICAR est une Unité Mixte de Recherche (UMR 5191, CNRS, l’Université Lumière Lyon 2, ENS de Lyon, IFE) spécialisée depuis une vingtaine d’années dans l’analyse de l’interaction. Il regroupe des chercheurs issus des sciences du langage, de la psychologie et des sciences cognitives. Les membres participant au projet sont Véronique Traverso, Carole Etienne, Sandra Teston, Matthieu Guignard, Emilie Jouin-Chardon et Sylvie Bruxelles