Séminaire Lattice – Pedro Ortiz 22 Septembre 2020

Dans le cadre de ses séminaires, le Lattice invite Pedro Ortiz le 22/09/2020. Le titre de la conférence est "Des Méthodes de TAL modernes pour l'Enrichissement de Documents"

Lieu : salle Weil. ENS, 45 rue d’Ulm, Paris 5ème
Heure : 10h30 – 12h
Diffusion en visio : https://www.gotomeet.me/visio-lattice

En raison des contraintes sanitaires, nous ne disposons que de 15 places en présentiel. Nous vous demandons de bien vouloir vous inscrire sur Inscriptions Séminaire Lattice.

Nous présentons une pipeline pour le traitement et l’enrichissement de documents basée sur les dernières méthodes d’apprentissage neuronal. Notamment, pour le français, notre pipeline est entrainée sur le corpus de très grande taille OSCAR (https://oscar-corpus.com) et construite à partir des représentations de mots contextualisés comme FrELMo (https://pjortiz.com/publication/2020/lrec/ner/) et CamemBERT (https://camembert-model.fr).

Le but de la pipeline est de permettre la spécification et le fine-tuning de ces modèles pour la structuration de documents, l’extraction d’informations, la reconnaissance d’entités nommées, l’étiquetage morphosyntaxique, les tâches de questions-réponses, etc. Notre but est de pouvoir traiter n’importe quel type de document, quel que soit son domaine ou l’époque à laquelle il a été écrit.

A lire aussi