Le CEFC est le résultat du projet ANR Orféo (Outils et Recherches sur le Français Écrit et Oral) dirigé par Jeanne-Marie Debaisieux et porté par le Lattice. Le CEFC est un corpus de près de 10 millions de mots, 4 millions pour la partie orale et 6 millions pour la partie écrite. Il est disponible sur la plateforme ortolang à l’adresse :
https://www.ortolang.fr/market/corpora/cefc-orfeo
Le CEFC-gold est un corpus d’entraînement de 172 000 mots constitué à partir d’extraits représentants l’essentiel des genres présents dans le CEFC. Il a fait l’objet d’un traitement automatique suivi d’une validation et d’une correction manuelle. Il est disponible sur la plateforme Orféo à l’adresse :
https://www.ortolang.fr/market/corpora/cefc-gold
Publication des corpus CEFC et CEFC-gold
Les deux corpus CEFC et CEFC-gold resultants du projet ANR ORFEO dirigé par Jeanne-Marie Debaisieux et porté par le Lattice viennent d'ëtre publiés.
27 September 2024
par Fabien Garrido
25 September 2024
par Fabien Garrido
12 September 2024
par Fabien Garrido