Laboratoire Lattice - UMR 8094
ENS-CNRS
1 rue Maurice Arnoux, 92120 Montrouge

Frédérique MÉLANIE-BECQUET

Ingénieur d’études
CNRS

Je suis Ingénieure d’Études en production, traitement et analyse de données.

La production

… collaborer à la constitution de corpus :

      • corpus MC4 (Modélisation Contrastive et Computationnelle des Chaînes de Coréférence)
      • corpus Democrat (téléchargeable ici)
      • Parasol(A Parallel Corpus of Slavic and other languages)

… réaliser des bases de données linguistiques mise à jour en cours :

      • BSP(Base de Syntagmes Prépositionnels)
      • EIOMSIT (Eléments Initiaux, Ordre des Mots, Structures Informationnelle et Textuelle)
      • ETE (Espace Temps Existence) [à venir]
      • SCF (Structures comparatives en français)

… réaliser la Base de données de la Bibliothèque du Lattice, la BBL.

Le traitement

… nettoyer et formater les données en vue de leur utilisation

      • réalisation de scripts (Perl, Python)

… annoter les données

      • mise en place de structures et formulaires d’annotation (Analec, Php, SQL, Django)
      • utilisation d’outils spécifiques (Sem, TXM, Prodigy,…)
      • collaboration à la rédaction de manuels d’annotation

L'analyse

… analyser et explorer les données

      • exportation et interprétation des annotations accomplies (Perl, Python)
      • utilisation d’outils spécifiques (Analec, Cortext, RCommander, TXM, …)
      • réalisation de formulaires d’interrogation (dans les bases de données : Php, SQL, Django)

Projets

          • Participation aux projets…
            • Oupoco : Le projet s’inspire de l’ouvrage de Raymond Queneau Cent mille milliards de poèmes, paru en 1961, qui permet de combiner des vers pour composer des poèmes respectant la forme du sonnet. Le noyau de l’application permet de « générer des poèmes » à la volée à partir des poèmes classiques. Un jeu de contraintes est mis en place pour s’assurer que la structure en rimes est bien respectée. Site du projet
            • Paris Time Machine : le consortium se propose de mutualiser et rendre accessibles les réflexions des équipes qui le composent sur la constitution de référentiels géo-historique. Le groupe Annuaires et Adresses
              travaille à l’élaboration d’un système d’extraction d’information capable de structurer les ressources numérisées à l’aide d’un modèle d’apprentissage automatique.
            • Approches contrastives du français : le projet porte sur l’enseignement du français. Il permet le développement d’outils tels que :
            • DEscription et MOdélisation des Chaînes de Référence (DEMOCRAT) : outils pour l’Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique (coord. F. Landragin), projet ANR.
      • Membre de réseau Mate-SHS
        • Membre du Comité de Pilotage du réseau Mate-SHS
        • Membre du comité d’organisation de l’ANF « Data Viz », ANF du réseau MATE-SHS, Sète, 12-16 novembre 2018.
        • Membre du comité d’organisation de l’ANF « Collecter et produire des données et des corpus pour mieux les traiter : quels besoins pour la recherche en SHS aujourd’hui ? », ANF du réseau MATE-SHS, Fréjus, 15-18 novembre 2016.

Quelques liens utiles

… quelques références à des sites et outils :

Mes références bibliographiques HAL :