Un système de résolution automatique de la coréférence à base de règles linguistiques (mémoire de master)

J'ai deux masters (M2) de l'Université de Strasbourg:

J'ai donc écrit deux mémoires. Cette page résume le premier: ODACR: un Outil de Détection Automatique des Chaînes de Référence à base de règles linguistiques. Pour le second (Étude des chaînes de référence dans les articles de recherche de format IMRaD: problèmes d'annotation, analyse quantitative et qualitative), lire ici.

En plus de l'outil de résolution automatique de la coréférence, j'ai développé deux ressources: un dictionnaire d'entités pour la détection de la coréférence et un diction d'hyperonymes.

Le travail a été publié dans un article scientifique: Détection automatique de chaînes de coréférence pour le français écrit: règles et ressources adaptées au repérage de phénomènes linguistiques spécifiques. Actes des Rencontres des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (TALN-RECITAL), Association française pour l'Intelligence Artificielle, Toulouse, Juillet 2019.

lire le mémoire (135 pages) lire l'article voir le poster

 

Les deux mémoires portent sur les chaînes de coréférence. Une chaînes de coréférence est l'ensemble de toutes les expressions d'un texte qui renvoient au même référent (expressions référentielles). Par exemple, toutes les expressions en gras dans le texte suivant renvoient à la même entité "Platon":

[Platon] est un philosophe antique de la Grèce classique... [Il] reprit le travail philosophique de certains de [ses] prédécesseurs, notamment Socrate dont [il] fut l'élève (extrait de Wikipédia).

Chaque expression qui fait partie d'une chaîne de référence est appelée une mention.

Dans l'un des travaux, j'ai développé un système de résolution automatique de la coréférence (plus d'informations ci-dessous) à partir de règles linguistiques. Dans le second, j'ai étudié, dans la perspective d'une analyse de corpus, les chaînes de coréférence dans les articles de format IMRaD.

 

J'ai développé un nouveau système de résolution automatique de la coréférence pour le français écrit. Il est à base de règles et prend en compte des phénomènes linguistiques qui ne sont pas considéré par des systèmes plus orientés vers l'apprentissage automatique (machine learning). Par exemple:

Les deux ressources lexicales que j'ai construites sont:

D'abord, un dictionnaire d'entités nommées et de noms propres issus de Wikipedia et WordNet, à partir de Yago (chapitre 4.1 du mémoire). Pour chaque entité, on y trouve:

Ensuite, un dictionnaire d'hyperonymes issu du Wiktionnaire (XMLisé par Glawi) (chapitre 4.2 du mémoire). Les définitions commencent généralement par un hyperonyme, selon le sens (cas de polysémie). Par exemple,

J'ai donc collecté ces hyperonymes et les ai rassemblés en un dictionnaire, par exemple: chat > mammifère > animal > métazoaire. Il y a des restrictions par domaines sémantiques.

J'ai aussi créé des règles pour corriger l'arbre donné par l'analyseur syntaxique que j'ai utilisé (Talismane) (chapitre 5 du mémoire). Cela a été fait après une analyse des erreurs. Par exemple (cliquer pour agrandir):

original (sortie de Talismane)

corrigé par mes règles

D'autres règles sont utilisées pour simplifier l'arbre, par exemple pour unifier la représentation des groupes (cliquer pour agrandir):

original (sortie de Talismane)

corrigé par mes règles

Ou bien pour diviser les propositions coordonnées ou juxtaposées (cliquer pour agrandir):

original (sortie de Talismane)

corrigé par mes règles

L'algorithme de résolution de la coréférence en lui-même est un algorithme en plusieurs passes:

 

lire le mémoire

Pour voir l'autre: Étude des chaînes de référence dans les articles de recherche de format IMRaD: problèmes d'annotation, analyse quantitative et qualitative.