19 octobre 2021 – Mathieu Dehouck

Parser les langues du monde (et leur histoire)

Salle Camille Marbo (U205) (Ens, 29 rue d’Ulm, Paris)

Différentes approches permettent aujourd’hui de rendre l’analyse syntaxique automatique accessible à plus de langues peu dotées. Je présenterai une méthode, développée pendant ma thèse, appelée « apprentissage phylogénétique ». Elle utilise un arbre phylogénétique pour guider le partage d’information entre différentes langues pendant l’apprentissage de modèles d’analyse syntaxique. Je présenterai également une méthode de création de données artificielles d’apprentissage qui peut facilement être mise en place pour le parsing de langues vraiment sous dotées. Ensuite je présenterai une mesure de la complexité morpho-syntaxique d’un corpus annoté (qui pourrait être améliorée). Je reviendrai enfin sur un nombre de limitations des méthodes présentées et parlerai des directions que j’aimerais donner à ces travaux.

 

Mathieu Dehouck est informaticien de formation, et informaticien-linguiste dans sa pratique, avec un intérêt particulier pour les aspects diachroniques et syntaxiques. Il a fait une thèse à Lille au sein de l’équipe Magnet (Inria), sous la direction de Pascal Denis et Marc Tommasi. (2019). Il est ensuite parti en post-doc à l’université de la Corogne (Espagne) où il a travaillé sur l’ERC FastParse (https://fastparse.grupolys.org/) de Carlos Gomez-Rodriguez. Il a rejoint le Lattice en janvier 2021. Ses publications sont disponibles ici.