22 septembre 2020 – Pedro Ortiz

Des Méthodes de TAL modernes pour l'Enrichissement de Documents

Nous présentons une pipeline pour le traitement et l’enrichissement de documents basée sur les
dernières méthodes d’apprentissage neuronal. Notamment, pour le français, notre pipeline est
entrainée sur le corpus de très grande taille OSCAR (https://oscar-corpus.com) et construite à
partir des représentations de mots contextualisés comme FrELMo
(https://pjortiz.com/publication/2020/lrec/ner/) et CamemBERT (https://camembert-model.fr).
Le but de la pipeline est de permettre la spécification et le fine-tuning de ces modèles pour la
structuration de documents, l’extraction d’informations, la reconnaissance d’entités nommées,
l’étiquetage morphosyntaxique, les tâches de questions-réponses, etc. Notre but est de pouvoir
traiter n’importe quel type de document, quel que soit son domaine ou l’époque à laquelle il a
été écrit.