Recherche
Thème
Ma passion et ma spécialité depuis mon DEA en 1992 (à Toulouse), c'est
le traitement automatique des langues (TAL). Je suis informaticienne
de formation mais j'ai toujours eu du goût pour les lettres et les
sciences humaines et ce domaine me permet d'associer ces divers
centres d'intérêt.
Depuis mon passage
au GRAppA
de Lille 3, je me suis
spécialisée dans l'apprentissage automatique (que je définirais comme
l'art de transformer automatiquement des données en programme)
appliqué au TAL. J'ai abordé ce thème par plusieurs
versants :
- théorique : inférence grammaticale, étude de
l'apprenabilité de familles de grammaires formelles à
partir de données syntaxico-sémantiques. L'idée que j'ai
particulièrement développée est qu'il est possible d'apprendre
automatiquement une grammaire formelle si on dispose de phrases
produites par cette grammaire accompagnées de leur interprétation
logique obtenue de manière
compositionnelle. Cette condition de compositionnalité
contraint les structures syntaxiques sous-jacentes possibles et permet
donc de reconstituer la grammaire initiale. Ces travaux relèvent du
TAL et de l'apprentissage automatique "symboliques", c'est-à-dire
fondés sur des modèles formels (automates, grammaires, formules
logiques, règles...).
- empirique : utilisation de techniques d'apprentissage automatique
pour la classification de textes, l'annotation de corpus, la recherche
et l'extraction d'informations, la recommandation. Dans ce cas, on
cherche plutôt à enrichir des données textuelles, en général en leur
associant des étiquettes, en s'appuyant dans le cas de l'apprentissage
supervisé sur des exemples de données déjà annotées. Ce domaine
relève, lui, du TAL et de l'apprentissage automatique "statistiques",
c'est-à-dire fondés sur des comptes de grandes quantités de données.
Dans les deux cas, ce qui m'intéresse est le lien syntaxe-sémantique :
peut-on apprendre la syntaxe à partir de données sémantiques ou, au
contraire, induire des informations de nature sémantique à partir de données
"brutes" ? J'ai aussi travaillé sur ces sujets au sein de l'équipe CA
du LIFO,
et je continue à le faire désormais en tant que membre
du LaTTiCe.
Encadrement de thèses
J'ai contribué à encadrer quatre thèses
d'informatique soutenues :
- Damien Poirier : Des textes communautaires à la recommandation (contrat Cifre avec France Telecom, soutenue en 2011)
- Florent Jousse : Transformations d'arbres XML avec des modèles probabilistes pour l'annotation (soutenue en 2007).
- Laurent Candillier : Contextualisation, visualisation et évaluation
en apprentissage non supervisé (contrat Cifre avec la société Pertinence à Paris, soutenue en 2006)
- Daniela Dudau-Sofronie : Apprentissage de Grammaires
Catégorielles pour simuler l'acquisition du langage naturel à
l'aide d'informations sémantiques (soutenue en 2004)
J'ai aussi encadré une dizaine de DEA ou M2 recherche.
Projets et collaborations (passés ou présents)
- Nomage (2008-2011) : projet ANR-07 "jeune chercheur" mené par Rafael
Marín, de Lille3, sur la sémantique des nominalisations
(d'un point de vue surtout linguistique) auquel je participe.
- CRoTAL (2008-2010) :
CRF (Conditional RandOm fields) pour le TAL, projet ANR-07 MDCO, dont j'étais la responsable
- ARC Inria Mosaique (2006-2008) : Modèles syntaxiques de haut niveau (invitation à titre personnel)
- Apprentissage naturel et artificiel de langages naturels et artificiels (2005-2007) : projet de la Maison des sciences de l'Homme de Lille3 dont j'étais la responsable
- Mostrare (2004-2008) : Modeling Tree Structures, Machine Learning, and Information Extraction, projet Inria-Lille Nord Europe dont j'étais membre quand j'étais à Lille3
- RIP Web, Recherche d'information précise sur le Web (2003-2004) : projet CNRS sur les systèmes question/réponse
- ARC Inria Gracq (2002-2004) : Acquisition de grammaires catégorielles, dont j'étais responsable locale à Lille
- Procope : projet de collaboration Lille-Sarrebruck (plusieurs fois renouvelé dans les années 90) auquel j'ai participé.
Logiciel
Je propose en téléchargement
libre SEM,
un Segmenteur-Etiqueteur Markovien pour le français, appris
automatiquement à partir de données extraites du corpus arboré
(ou French
Treebank) de Paris 7.
Publications
Responsabilité de numéro spécial de revue :
Articles de revue avec comité de lecture :
- Poirier, Fessant, Tellier 11 : De la classification d'opinion à la recommandation : l'apport des textes communautaires, revue TAL 51, sur "Opinions, sentiments et jugements d'évaluation", p. 19-46, 2010 (paru en 2011).
- Tellier, Eshkol, Taalab, Prost 10
: POS-tagging for Oral
Texts with CRF and Category Decomposition, in Research
in Computing Science, special issue "Natural Language Processing
and its Applications", vol 46, p.79-90, 2010.
- Béchet, Foret, Tellier 07
: Learnability of Pregroup
Grammars, Studia Logica, n°87 p.225-252, 2007.
- Béchet, Bonato, Dikovsky, Foret, Le Nir, Moreau,
Retoré, Tellier 07
: Modèles
algorithmiques de l'acquisition de la syntaxe ; concepts et
méthodes, résultats et problèmes, Revue
Linguistique de Vincennes, numéro spécial "Le
tournant inductif en linguistique", p.123-152, 2007.
- Tellier 06 : Learning Recursive
Automata from Positive Examples, RIA, Revue d'Intelligence
Artificielle, special number "New methods in Machine Learning,
theory and Appplication", vol20-n°6, p.775-804, 2006.
- Finkel and Tellier 96 : A polynomial algorithm for the membership
problem with categorial grammars, TCS : Theoretical Computer
Science 164:1-2, p.207-221, 1996.
Articles de revue sur invitation :
- Tellier 11 : note de lecture de l'ouvrage "Semantic Role Labeling", de Palmer M., Gildea D. et Xue N., Morgan & Claypool Publishers, 2010, revue TAL numéro 51-1, p.119-121, 2010 (paru en 2011).
- Tellier 10 : Préface au numéro 50-3 "Apprentissage automatique pour le TAL", revue TAL, p.7-21, 2009 (paru en 2010).
- Tellier 96 : Les sciences cognitives : (se) creuser la tête pour trouver
l'esprit : article d'épistémologie et de
vulgarisation sur les sciences cognitives, revue Terminal, numéro
70, p. 41-58, Hermès, 1996.
Chapitres de livres :
- Meyer, Poirier, Tellier, Fessant 11 : REPERIO, a fexible
architecture for recommendation in an industrial context, à paraître
dans un recueil international sur la recommandation, 2012.
- Tellier, Tommasi 11 : Champs Markoviens Conditionnels pour
l'extraction d'information, chapitre 6 du livre Modèles
probabilistes pour l'accès à l'information
textuelle édité par E. Gaussier et F. Yvon, p. 223-267, Hermès 2011, traduction anglaise à
paraître chez Wiley en 2012.
- Tellier, Dudau-Sofronie 11 : Good Types are useful for Learning, dans
Grammar and logic : essays in honour of Alain Lecomte, LNCS,
Logic and Information Series, p.118-137, Springer, 2011.
- Tellier (en attente depuis 2002...) : Meaning-based syntax learning, à
paraître peut-être un jour...
- Tellier, Finkel 95 : Cognitive style of decision making
narrations, dans The Cognitive Level, Endres-Niggemeyer (Ed.),
Duisburg LAUD series of Cognitive Linguistics (version étendue de
Tellier & Finkel 95), p41-59.
Conférence internationale sur invitation :
- Béchet, Foret, Tellier, 05 : Parsing pregroup grammars
using partial composition, Workshop on Pregroups and Linear Logic,
Chieti (Italie), 2005.
Communications (orale ou par poster) avec actes dans un congrès international :
- Constant, Tellier 12 : Evaluating the Impact of External Lexical Resources unto a CRF-based Multiword Segmenter and Part-of-Speech Tagger, accepté à LREC, Istambul, 2012.
- Poirier, Fessant, Tellier 10 : Reducing the Cold-Start Problem in Content Recommendation Through Opinion Classification, IEEE/WI/ACM International Conference on Web Intelligence, Toronto, 2010.
- Eshkol, Tellier, Taalab, Billot 10 : Etiqueter un corpus oral par
apprentissage automatique à l'aide de connaissances linguistiques,
Journées Internationales d'Analyses Statistiques des Données
Textuelles (JADT 2010), Rome.
- Poirier, Tellier, Fessant, Schluth 10
: Towards Text-Based
recommendations, 9th international conference on Adaptivity,
Personalization and Fusion of Heterogeneous Information (RIAO 2010),
Paris, 2010.
- Moreau, Tellier 09 : The Crotal
SRL System : a Generic Tool based on Tree-structured CRF,
Computational Natural Language Learning (CoNLL 2009), shared task,
p.91-96, Boulder (USA).
- Tellier 08 : How to Split Recursive
Automata, 9th International Colloquium on Grammatical
Inference (ICGI 2008), St Malo, LNAI 5278, p.200-212, vidéo de l'exposé.
- Tellier 07 : Grammatical inference
by specialization as a state splitting strategy, 16th Amsterdam
Colloquium 2007, p.223-228.
- Gilleron, Jousse, Tellier, Tommasi 06 : XML Document
Transformation with Conditional Random Fields, 5th International
Workshop of the Initiative for the Evaluation of XML Retrieval (INEX
2006), Dagstuhl (Allemagne), in "Comparative Evaluation of XML
Information Retrieval Systems", LNCS 4518, p.525-539.
- Gilleron, Jousse, Tellier, Tommasi 06
: Conditional Random Fields for
XML Trees 17th European Conference on Machine Learning and
Principles ans Practice of Knowledge Discovery (ECML/PKDD 2006),
Workshop on Mining and Learning in Graphs (MLG 2006), Berlin, 2006,
p.141-148.
- Candillier, Tellier, Torre, Bousquet 06
: Cascade evaluation of clustering
algorithms, 17th European Conference on Machine Learning (ECML
2006), Berlin, LNCS 4212, p.574-581.
.
- Tellier 06 : Various Types of
Learning with Types, Grammatical Inference Workshop, St Etienne,
p.15-16.
- Tellier 05 : Automata and
AB-Categorial Grammars, 10th International Conference on
Implementation and Application of Automata (CIAA 2005), poster
session, Sophia Antipolis, LNCS 3845, p.353-355.
- Candillier, Tellier, Torre, 05
: Transforming XML trees for efficient
classification and clustering, 4th International Workshop of the
Initiative for the Evaluation of XML Retrieval (INEX 2005), Dagstuhl
(Allemagne), Document Mining Track, in "Advances in XML Information
Retrieval and Evaluation", LNCS 3977, p.469-480.
- Candillier, Tellier, Torre, Bousquet, 05
: SSC : Cascade evaluation, 19th
Annual Conference on Neural Information Processing Systems (NIPS
2005), Workshop on Theoretical Foundations of Clustering, Vancouver
(Canada).
- Candillier, Tellier, Torre, Bousquet 05
: SSC : Statistical Subspace
Clustering, 4th International Conference on Machine Learning and
Data Mining in Pattern Recognition (MLDM 2005), Leipzig (Allemagne),
LNAI 3587, p.100-109.
- Tellier 05 : When Categorial
Grammars meet Regular Grammatical Inference, conference on
Logical Aspects of Computational Linguistics (LACL 2005), Bordeaux LNAI 3492,
p.301-316.
- Béchet, Foret, Tellier 04
: Learnability of Pregroup Grammars,
7th International Colloquium on Grammatical
Inference (ICGI 2004), Athènes, LNAI 3264, p.65-76.
- Dudau-Sofronie, Tellier 04 : A Study
of Learnability of Lambek Grammars from Typed Examples,
Categorial Grammars Conference, Montpellier, p.133-147.
- Dudau-Sofronie, Tellier, Tommasi 03
: A Learnable Class of CCG from Typed
Examples, 8th conférence Formal Grammars, Vienna, p.77-88.
- Dudau-Sofronie, Tellier, Tommasi 02
: A Tool for Language Learning Based on
Categorial Grammars and Semantic Information, 6th
International Colloquium on Grammatical Inference (ICGI 2002), demo session,
Amsterdam, LNAI 2484, p.303-305.
- Dudau-Sofronie, Tellier, Tommasi 01
: Learning Categorial Grammars from
Semantic Types, 13rd Amsterdam Colloquium, p.79-84.
- Dudau-Sofronie, Tellier, Tommasi 01 : From
Logic to Grammars via Types,3rd Learning
Language in Logic (LLL 2001) Workshop, Strasbourg, p.35-46.
- Tellier 00 : Semantic-Driven
Emergence of Syntax : the Pinciple of Compositionality
upside-down, International Conference on the Evolution of Language
(Evolang 2000), poster session, Paris, p.220-224.
- Tellier 99 : Towards a Semantic-based
Theory of Language Learning, 12th Amsterdam
Colloquium, p.217-222.
- Tellier 98 : Meaning
Helps Learning syntax, 4th International
Colloquium on Grammatical Inference (ICGI 1998), Ames (USA), 1998,
LNAI 1433, Springer, p.25-36.
- Tellier 98 : Syntactico-Semantic
Learning of Categorial Grammars, Joint Conferences on New Methods
in Language Processing and Computational Natural Language Learning
(NeMLaP3/CoNLL 1998), Workshop on Paradigms and Grounding in Language
Learning, Adélaïde (Australia), p.311-314.
Communications dans un congrès international sans actes :
- Tellier, Eshkol, Taalab, Prost 10 : POS-tagging for Oral Texts
with CRF and Category Decomposition, 11th International Conference on
Intelligent Text porcessing and Computational Linguistics (CICLing
2010), poster session, Iasi (Roumanie).
- Balvet, Evert, Haas, Huyghe, Marín, McNally, Tellier 07 :
NOMAGE: Coding the Semantic Features of French Nominalizations,
Workshop "Nominalizations across languages", Stuttgart University,
2007
- Tellier 02 : Workshop "Gracq", ESSLI, Trento, 2002.
- Tellier, Finkel 95 : From natural language to cognitive style, Fourth
International Colloquium on Cognitive Science (ICCS 1995), Donostia-San
Sebastian (Espagne).
- Finkel, Tellier 94 : An
algorithmic overview on categorial grammars, Fifth
Symposium on Logic and Language (LL5), Noszvaj (Hongrie).
Communication avec actes dans un congès national sur invitation :
Communications avec actes dans un congès national :
- Constant, Tellier, Duchier, Dupont, Sigogne, Billot 11
: Intégrer des connaissances
linguistiques dans un CRF : application à l'apprentissage d'un
segmenteur-étiqueteur du français, Traitement Automatique des
Langues Naturelles (TALN 2011), Montpellier.
- Moreau, Tellier, Balvet, Laurence, Rozenknop, Poibeau 09
: Annotation
fonctionnelle de corpus arborés avec des Champs Aléatoires
Conditionnels, Traitement Automatique des Langues Naturelles (TALN
2009), Senlis (actes électroniques).
- Candillier, Tellier, Torre, Bousquet 06
: SuSE: Subspace Selection embedded
in an EM algorithm, 8ème Conférence francophone sur
l'Apprentissage automatique (CAP 2006), Trégastel, p.331-345.
- Candillier, Tellier, Torre, Bousquet 06
: Evaluation en cascade d'algorithmes
de clustering, 8ème Conférence francophone sur
l'Apprentissage automatique (CAP 2006), Trégastel, p.109-124.
- Jousse, Gilleron, Tellier, Tommasi 06
: Champs conditionnels
aléatoires pour l'annotation d'arbres, 8ème
Conférence francophone sur l'Apprentissage automatique
(CAP 2006), Trégastel, p.171-186.
- Tellier 05 : Inférence
grammaticale et grammaires catégorielles : vers la Grande
Unification !, 7ème Conférence sur l'Apprentissage
(CAP 2005), Nice, Presses Universitaires de Grenoble, p.63-78.
- Candillier, Tellier, Torre, Bousquet 05
: Statistical Subsspace Clustering,
conférence Extraction et Gestion des Connaissances (EGC 2005),
Paris, Cépaduès éditions, p.177-182.
- Jousse, Tellier, Tommasi, Marty 05 : Learning
to Extract Answers in Question Answering: Experimental Studies,
2ème Conférence en Recherche d'Information et Applications
(CoRIA 2005), Grenoble, p85-99.
- Candillier, Tellier, Torre 04 :
Tuareg: classification non supervisée contextualisée,
6ème Conférence sur l'APprentissage (CAP 2004),
Montpellier, Presses Universitaires de Grenoble, p.159-174.
- Dudau-Sofronie, Tellier 04 : Un
modèle d'acquisition de la syntaxe à partir
d'informations sémantiques, Traitement Automatique du
Langage Naturel (TALN 2004), Fes (Maroc), p.137-146.
- Dudau-Sofronie, Tellier, Tommasi 03
: Une classe de grammaires
catégorielles apprenable à partir d'exemples
typés, actes de la 5ème conférence sur
l'APprentissage (CAP 2003), Laval, Presses Universitaires de Grenoble,
p.169-184.
- Tellier 99 : Rôle
de la Compositionnalité dans l'acquisition d'une langue,
1ère Conférence sur l'APprentissage (CAP 1999,
successeur des JFA), Palaiseau, p107-114.
- Tellier 96 : Un
modèle pour l'analyse de l'énonciation,
deuxième colloque des jeunes chercheurs en Sciences
Cognitives (RJCSC 1996), Presqu'île de Giens, juin 96, p.210-221.
- Rozier, Tellier 92 : Système de Lambek étendu pour
la traduction logique de phrases en langage naturel, première
rencontre nationale des jeunes chercheurs en Intelligence Artificielle (RJCIA 1992),
Rennes, septembre 92, p.308-324.
Workshop nationaux
- Machen, Tellier 11 : Reconnaissance des Entités Nommées par apprentissage automatique avec un coprus d'apprentissge bruité, journée ATALA "reconnaissance des entités nommées" (poster), 2011.
- Eshkol, Maurel, Tellier, Friburger, Taalab 11 : Annoter ESLO1 par des
cascades de transducteurs et par apprentissage automatique, journée
ATALA "annoter les corpus oraux", 2011.
- Tellier, Eshkol, Taalab, Billot 10
: Morpho-syntactic labelling of an
oral corpus by decomposing labels, journées ATALA "CRF pour le
TAL", 2010.
- Tellier, Eshkol, Taalab 10 : Annotation morpho-syntaxique d'un
corpus oral par enchainements de CRF, journée PPF "Fouille de
Données en région Centre", 2009.
- Tellier 08 : Inroduction à l'inférence grammaticale,
Journées Informatique de la région Centre (JIRC 2008).
- Candillier, Tellier, Torre, Bousquet 06
: Evaluation en cascade d'algorithmes
de clustering, 2èmes Rencontres Inter-Associations (RIAs 2006) sur
la classification et ses applications, 2006.
- Candillier, Tellier, Torre, Bousquet 06
: SuSE: Subspace Selection embedded
in an EM algorithm, 2èmes Rencontres Inter-Associations (RIAs
2006) sur la classification et ses applications, 2006.
Rapports de recherche :
- Gilleron, Jousse, Tommasi, Tellier 08
: Conditional
Random Fields for XML Applications, rapport de recherche Inria 6738.
- Candillier, Tellier, Torre, Bousquet 05 : SSC
: Statistical Subspace Clustering, GRAppA Report 0105.
- Tellier 99 : Learning
to Understand, rapport de recherche IT-320 du LIFL.
- Tellier 97 : A Framework for the Syntactico-Semantic Learning of
Natural Language, rapport de recherche IT-305 du LIFL, juin 1997
(première version des autres Tellier 98).
- Finkel, Tellier 96 : Cognitive automata, rapport
interne 96-2 du LIFAC.
- Tellier 93 : How to reconcile Lambek, Montague and discourses, rapport 93-4
du LIFAC.
Mémoires, thèse, HDR
- Tellier 05 : Modéliser l'acquisition de la
syntaxe du langage via l'hypothèse de la primauté du sens, HDR
d'informatique de l'université Charles de Gaulle-Lille3
- Tellier 96 : Définition et implémentation par les grammaires
catégorielles d'un modèle cognitif formel de l'énonciation, thèse
d'informatique de l'ENS de Cachan, mention très honorable avec les
félicitations du jury.
- Tellier 92 : Modélisation du discours, mémoire de diplôme
d'ingénieur en informatique, ENSEEIHT, Toulouse.
- Tellier 92 : Système de Lambek étendu pour la traduction logique
de phrases en langage naturel, mémoire de DEA "Représentation des
connaissances et Formalisation du raisonnement", Toulouse, IRIT.
Autres (pédagogie) :