Laboratoire Lattice - UMR 8094
ENS-CNRS
1 rue Maurice Arnoux, 92120 Montrouge
Frédérique Mélanie-Becquet
Engineer
CNRS
Je suis Ingénieure d’Études en production, traitement et analyse de données.
La production
… collaborer à la constitution de corpus :
- Données vérité de terrain HTR+ Annuaire des propriétaires et des propriétés de Paris et du département de la Seine (1898-1923)
- corpus Democrat (téléchargeable ici)
- Parasol(A Parallel Corpus of Slavic and other languages)
… réaliser des bases de données linguistiques …mise à jour en cours… :
- BSP(Base de Syntagmes Prépositionnels)
- EIOMSIT (Eléments Initiaux, Ordre des Mots, Structures Informationnelle et Textuelle)
- ETE (Espace Temps Existence) [à venir]
- SCF (Structures comparatives en français)
… réaliser la Base de données de la Bibliothèque du Lattice, la BBL.
Le traitement
… nettoyer et formater les données en vue de leur utilisation
- réalisation de scripts (Perl, Python)
… annoter les données
- mise en place de structures et formulaires d’annotation (Analec, Php, SQL, Django)
- utilisation d’outils spécifiques (Sem, TXM, Prodigy,…)
- implémentation de modèles d’annotation (Prodigy, Spacy)
- collaboration à la rédaction de manuels d’annotation
L'analyse
… analyser et explorer les données
- exportation et interprétation des annotations accomplies (Perl, Python)
- utilisation d’outils spécifiques (Analec, Cortext, RCommander, TXM, …)
- réalisation de formulaires d’interrogation (dans les bases de données : Php, SQL, Django)
Projets
Participation aux projets…
- Oupoco : Le projet s’inspire de l’ouvrage de Raymond Queneau Cent mille milliards de poèmes, paru en 1961, qui permet de combiner des vers pour composer des poèmes respectant la forme du sonnet. Le noyau de l’application permet de « générer des poèmes » à la volée à partir des poèmes classiques. Un jeu de contraintes est mis en place pour s’assurer que la structure en rimes est bien respectée. Site du projet
- Paris Time Machine : le consortium se propose de mutualiser et rendre accessibles les réflexions des équipes qui le composent sur la constitution de référentiels géo-historique. Le groupe Annuaires et Adresses travaille à l’élaboration d’un système d’extraction d’information capable de structurer les ressources numérisées à l’aide d’un modèle d’apprentissage automatique.
- French BookNLP : le projet porte sur la réalisation d’un modèle d’annotation en entité nommée, chaine de référence et détection de prise de parole dans un corpus littéraire français (Github du projet)
- Salta (Spatial Asymmetries Across Languages: A Typological Approach).
- ComPLETE (Complex predicates in languages).
- Medialex.
Participation à la vie du réseau métiers Mate-SHS…
- Membre du Comité de Pilotage du réseau Mate-SHS
- Membre du Comité d’organisation des Tuto@Mate
- Membre de comités d’organisation d’ET (“Transcarto”, Aussois, 18-22 octobre 2021) et d’ANF (“Data Viz”, Sète, 12-16 novembre 2018, “Collecter et produire des données et des corpus pour mieux les traiter : quels besoins pour la recherche en SHS aujourd’hui ?”, Fréjus, 15-18 novembre 2016).
Quelques liens utiles
… quelques références à des sites et outils :
- Des réseaux professionnels interdisciplinaires
- CORLI (consortium Huma-Num)
- mate-SHS
- rBDD
- Dictionnaires et ressources électroniques
- DES, dictionnaire Electronique des Synonymes.
- Linguee, dictionnaire et moteur de recherche indexant
- TLFi
- Writefull
- Glossaire d’Introduction aux humanités numériques
- …
- Corpus en ligne :
- ortolang
- Parasol (A Parallel Corpus of Slavic and other languages)
- liste de corpus oraux(liste constituée par les membres de Mate-SHS. Merci à eux!)
- Outils et plateformes :
- Prévention et sécurité :
- Revue Prévention info du CNRS
Mes références bibliographiques HAL :