Coreference resolution aims at identifying and grouping all mentions referring to the same entity. In French, most systems run different setups, making their comparison difficult. In this paper, we present an extensive comparison of several coreference resolution systems for French. The systems have been trained on two corpora (ANCOR for spoken language and Democrat for written language) annotated with coreference chains, and augmented with syntactic and semantic information. The models are compared with different configurations (e.g. with and without singletons). In addition, we evaluate mention detection and coreference resolution apart. We present a full-stack model that outperforms the other approaches. This model allows us to study the impact of mention detection errors on coreference resolution. Our analysis shows that mention detection can be improved focusing on boundary identification while advances in the pronoun-noun relation detection can aid the coreference task. Another contribution of this work is the first end-to-end neural French coreference resolution model trained on Democrat (written texts), which compares to the state-of-the-art systems for oral French.
Coreference-Based Text Simplification
Wilkens R., Oberle B. & Todirascu A.
Proceedings of the READI Workshop (Tools and Resources to Empower People with READing DIfficulties), Marseille, France (2020)
Text simplification aims at adapting documents to make them easier to read by a given audience. Usually, simplification systems consider only lexical and syntactic levels, and, moreover, are often evaluated at the sentence level. Thus, studies on the impact of simplification in text cohesion are lacking. Some works add coreference resolution in their pipeline to address this issue. In this paper, we move forward in this direction and present a rule-based system for automatic text simplification, aiming at adapting French texts for dyslexic children. The architecture of our system takes into account not only lexical and syntactic but also discourse information, based on coreference chains. Our system has been manually evaluated in terms of grammaticality and cohesion. We have also built and used an evaluation corpus containing multiple simplification references for each sentence. It has been annotated by experts following a set of simplification guidelines, and can be used to run automatic evaluation of other simplification systems. Both the system and the evaluation corpus are freely available.
Types de chaînes de référence dans les articles de recherche de format IMRaD
Oberle B.
Discours: A journal of linguistics, psycholinguistics and computational linguistics, 25 (2020)
English: Many research articles in experimental sciences present a standardized form known as the IMRaD format, an acronym for “Introduction, Methods, Results and Discussion”. Each of these sections has a specific purpose (presenting the framework, describing the methodology, reporting the results and then discussing them), but also specific linguistic features. Our goal is to study coreference chains (all the expressions of a text that refer to the same extra-linguistic entity) in a corpus of French IMRaD articles (5 texts, 32 539 words). We show that different types of chains have specific features and that they cannot be study without distinction. We first categorize chains by the type of their referent and analyze in particular three of these types: author(s), abstract concepts and groups. We then define types of chains by features such as their prominence, their extend in the text, the distance between their elements, etc. This dual typology of coreference chains allows us to describe the main types of chains, but also to give a fine-grained analysis of the textual progression in IMRaD articles, especially how and why some referents are present in several sections while other are limited in one section only.
French: La plupart des articles de recherche en sciences expérimentales présentent un format standardisé, dit « IMRaD » (Introduction, Méthodes, Résultats et Discussion). Chacune de ces parties remplit une fonction spécifique (présenter le cadre de la recherche, décrire les méthodes, rapporter les observations, et les discuter) qui est marquée par une variation de certains phénomènes linguistiques. Notre recherche a pour objectif d'étudier le fonctionnement des chaînes de référence (l'ensemble des expressions linguistiques qui renvoient à la même entité extralinguistique) dans un corpus d'articles IMRaD écrits en français (5 textes, 32 539 mots). Notre analyse fait ressortir l'hétérogénéité des chaînes, tant par le type de leur référent que par la répartition de leurs occurrences dans le texte. Nous montrons que des chaînes de différents types de référents (notamment l'auteur de l'article, les référents abstraits et les groupes d'individus) n'ont pas les mêmes propriétés et ne peuvent pas être décrites de la même façon. De même, nous distinguons différents types de chaînes en fonction de caractéristiques telles que leur saillance, leur étendue dans le texte, la distance entre leurs éléments, etc. Cette double typologie des chaînes de référence nous permet à la fois de modéliser le comportement des principaux types de chaînes mais aussi de proposer une analyse fine de la progression textuelle dans les articles de format IMRaD, et d'expliquer comment certains référents sont présents tout au long du texte, alors que d'autres n'apparaissent que dans certaines sections.
Détection automatique de chaînes de coréférence pour le français écrit: règles et ressources adaptées au repérage de phénomènes linguistiques spécifiques
Oberle B.
Actes des Rencontres des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (TALN-RECITAL), Association française pour l'Intelligence Artificielle, Toulouse (2019)
English: We introduce a new rule-based coreference resolution system for written French. This system takes into account linguistic phenomena often ignored by other systems. First, we have built lexical resources to improve full NP coreference resolution (My cat... The animal), especially when a named entity is involved (The Seine... The river...). We have defined rules to detect groups of individuals (Peter and Paul) and null anaphora (Peter drinks and ø smoke). We have also defined rules to detect first and second person pronouns in quotations (Paul said : “I am a student”). This paper first presents how we built our lexical resources and how we defined our rules, then it describes how our system works and specifically what are the steps to resolve coreference.
French: Nous présentons un système end-to-end de détection automatique des chaînes de coréférence, à base de règles, pour le français écrit. Ce système insiste sur la prise en compte de phénomènes linguistiques négligés par d'autres systèmes. Nous avons élaboré des ressources lexicales pour la résolution des anaphores infidèles (Mon chat... Cet animal...), notamment lorsqu'elles incluent une entité nommée (La Seine... Ce fleuve...). Nous utilisons également des règles pour le repérage de mentions de groupes (Pierre et Paul) et d'anaphores zéros (Pierre boit et ø fume), ainsi que des règles pour la détection des pronoms de première et deuxième personnes dans les citations (Paul a dit : “Je suis étudiant.”). L'article présente l'élaboration des ressources et règles utilisées pour la gestion de ces phénomènes spécifiques, avant de décrire le système dans son ensemble, et notamment les différentes phases de la résolution de la coréférence.
Identification automatique de chaînes de coréférences: vers une analyse des erreurs pour mieux cibler l'apprentissage
Landragin F. & Oberle B.
Workshop AFIA-ATALA “Traitement Automatique des Langues et Intelligence Artificielle”, Onzième édition de la plate-forme Intelligence Artificielle (PFIA), Nancy, France (2018)
English: Automatic identification of coreference chains: Towards a linguistic analysis of errors in order to improve machine learning features. -- We present a preliminary qualitative study dealing with the linguistic analysis of the errors made by NLP systems dedicated to the automatic detection of coreference chains. We describe several cases of noise and silence, characterized with different degrees of importance, as well as coreference-specific types of errors, for instance the construction of “catch-all” chains that group non-used referring expressions. In order to further define a generalizable methodology, we propose a first typology of errors, and some guidelines for their consideration within the machine learning process. This research implies considerations on the possible types of hybrid systems.
Français: Nous présentons une étude qualitative préliminaire concernant l'analyse linguistique des erreurs commises par des systèmes de détection automatique de chaînes de coréférences. Nous soulignons plusieurs cas de bruit et de silence, caractérisés par des gravités différentes, ainsi que des types d'erreurs spécifiques, notamment la construction de chaînes « fourre-tout » regroupant des expressions référentielles inexploitées par ailleurs. Dans le but de définir une méthodologie généralisable, nous proposons une première typologie d'erreurs et quelques pistes de réflexion pour leur prise en compte à terme dans les processus d'apprentissage, ce qui passe par des considérations sur les types d'hybridation à envisager pour ces processus.
Les chaînes de référence dans les textes encyclopédiques du 12e au 21e siècle: étude longitudinale
Oberle B., Schnedecker C., Baumer E., Capin D., Glikman J., Guo C., Revol T., Todirascu A. & Tushkova J.
English: (Co-referential chains in encyclopedic texts from the 12th to the 21st century : a longitudinal study) This innovative study aims at identifying diachronic changes in the composition of co-referential chains over a very large period of time. It covers texts of an encyclopedic nature, featuring referents of the same type (animals), and dating from the 12th to the 21st century, in order to highlight the impact of two factors that are supposed to influence co-referential chains : discourse genre and time of writing. The study is based on a corpus of 13,623 words (4,418 referential expressions), for which all referents have been annotated.
Français: Cette étude originale vise à dégager l’évolution diachronique dans la composition des chaînes de référence sur une diachronie très large, couvrant des textes à caractère encyclopédique allant du 12e au 21e siècle et portant sur des référents de même type (des animaux). L’objectif est de faire ressortir l’impact des facteurs censés influencer les chaînes de référence: leur genre discursif d’occurrence et l’époque de leur composition. L’étude s’appuie sur un corpus annoté en références et coréférences de 13 623 mots (4 418 expressions référentielles), dont tous les référents ont été annotés.
SACR: A Drag-and-Drop Based Tool for Coreference Annotation
Oberle B.
Proceedings of the 11th Edition of the Language Resources and Evaluation Conference (LREC), Miyazaki, Japan (2018)
This paper introduces SACR, an easy-to-use coreference chain annotation tool, which is used to annotate large corpora for Natural Language Processing applications. Coreference annotation is usually considered as costly both in terms of time and human resources. So, in order to find the easiest annotation strategy, we will first of all compare several annotation schemes implemented in existing tools. Since interface ergonomics is also an important part of our research, we then focus on identifying the most helpful features to reduce the strain for annotators. In the next section of the paper, we present SACR in details. This tool has been developed specifically for coreference annotation, and its intuitive user interface has been designed to facilitate and speed up the annotation process, making SACR equally suited for students, occasional and non-technical users. In order to create coreference chains, elements are selected by clicking on the corresponding tokens. Coreference relations are then created by drag-and-dropping expressions one over the other. Finally, color frames around marked expressions help the user to visualize both marked expressions and their relations. SACR is open source, distributed under the terms of the Mozilla Public License, version 2.0, and freely available online.
Les noms d'humains en -phobe
Oberle B.
In Schnedecker C. et Mihatsch W., Nouvelles approches en sémantique lexicale: les noms d'humains (théorie, méthodologie, classification). De Gruyter (2018)
Constructions néoclassiques récentes, formées avec un élément d'origine grecque et d'un élément d'origine soit classique soit française, les NH-phobe se caractérisent d'abord par une grande productivité, avec de nombreuses créations, que les éléments soient « triviaux » (araignée-phobe) ou, au contraire, très « recherchés » (blemmophobe).
Face aux catégorisations sémantiques données par les dictionnaires, qui répartissent les NH-phobe entre peur, haine et aversion, il convient de faire preuve de prudence: non seulement le sens de ‑phobe ne semble pas stabilisé (anglophobe pourra aussi bien désigner quelqu'un qui hait les Anglais, que, dans certains contextes, quelqu'un qui ne parle tout simplement pas anglais), mais surtout les deux principaux sens (peur et haine) semblent cohabiter dans l'esprit des locuteurs, qui se sentent parfois obligés de préciser le sens qu'ils donnent à ‑phobe, quand ils ne jouent pas sur la polysémie de l'élément pour masquer leur haine.
L'analyse comparative des quatre discours représentés dans notre corpus a mis en évidence certaines contraintes pesant sur l'usage des NH-phobe. Ceux-ci sont ainsi beaucoup plus fréquents dans la langue informelle des sous-titres, alors que les documents formels et administratifs privilégient l'usage de l'adjectif et n'en contiennent presque aucun. La distribution lexicale varie également selon le discours: les films et les séries s'intéressent surtout aux homophobes, les députés européens aux xénophobes et la presse, les forums et les blogs aux deux à la fois.
D'autres phénomènes ont été révélés par une analyse plus fine des propriétés syntaxiques et sémantiques des NH-phobe; par exemple l'opposition entre un usage générique, pluriel, au genre indéterminé dans les débats parlementaires européens, et un usage plus spécifique, singulier, avec plus d'expansions, dans les dialogues des films et séries; mais aussi la peur (claustrophobe, arachnophobe) plus souvent associée aux femmes qu'aux hommes; ou encore l'usage fréquent des NH-phobe comme insultes.
Si nos remarques ont surtout été descriptives, nous avons essayé d'offrir une vue d'ensemble de ces NH, non seulement en tant que constructions (notre étude qualitative), mais aussi en tant que composés qui s'inscrivent dans des usages spécifiques (notre étude quantitative). Plusieurs des phénomènes que nous avons mis en avant mériteraient une analyse plus approfondie, notamment celui de la polysémie de l'élément ‑phobe et celui de la corrélation entre certains phénomènes syntaxiques ou sémantiques et le type de discours. De plus, certaines de ces propriétés, en faisant l'objet d'une étude plus poussée, pourraient servir de base à une sous-catégorisation des NH-phobe, ce qui permettrait, à terme, de les intégrer dans des classifications plus larges des noms d'humains, comme celles de Gross (2011), El Chérif (2011) ou Schnedecker (2015). Enfin, il conviendrait d'envisager l'étude contrastive des NH-phobe et d'autres composés néoclassiques nominaux, tels que ceux formés, par exemple, à partir de ‑phile, ‑mane ou ‑graphe.
Research Articles From Plos Biology: A Textual Data Analysis
Oberle B.
In Wang X. 篇章分析——对汉语、法语指称链条分布规律的实证研究及其标注 (Analyse textuelle: études des chaînes référentielles en chinois et en français; Textual Analysis: Coreference Chains in Chinese and French). Beijing Language and Culture University Press (2018)
Many research articles in experimental sciences present a standardized form known as the “IMRaD format”, an acronym for Introduction, Methods, Results and Discussion. Linguists have pointed out that each section serves a specific rhetorical function. This article aims at exploring the relation between linguistic features and the rhetorical function of each section. We studied 966 research articles from the journal Plos Biology. Topic modelling and correspondence analysis highlighted linguistic features associated with the rhetorical function of each section. However, lexical diversity revealed some features that point out a change in the rhetorical function traditionally associated with Methods sections, because Plos Biology uses a slightly modified IMRaD format, in which Methods sections are at the end of articles.
Workshops
Chaînes de référence et structuration textuelle: quelques indicateurs...
Oberle B.
Workshop “Mesures statistiques et approches quantitatives”, LiLPa (Linguistique, Langues, Parole), UR 1339, Université de Strasbourg, 14 juin 2019, Strasbourg, France
English:What is the relation between coreference chains and textual structure? Can we predict thematic break from coreference chains. We demonstrate that looking at coreference is helpful to find thematic sections at a level between the paragraph and the chapter.
Annotating with SACR and exploiting annotations (CRViewer, Excel)
Oberle B.
Workshop at Cardiff University (invited by Lise Fontaine), United Kingdom, May the 10th, 2019
La plupart des articles de recherche en sciences expérimentales présentent un format standardisé, dit « IMRaD » pour Introduction, Méthodes, Résultats et Discussion. Chacune de ces parties remplit une fonction spécifique (présenter le cadre de la recherche, décrire la méthodologie de l'expérimentation, rapporter les observations, puis les discuter et les généraliser) qui est marquée par une variation de certains phénomènes linguistiques. C'est dans ce cadre que s'inscrit notre recherche, dont l'objectif est d'étudier le fonctionnement des chaînes de référence, définies comme l'ensemble des expressions linguistiques (les « maillons » de la chaîne) qui renvoient à la même entité extralinguistique, dans les articles de format IMRaD, et plus spécifiquement dans chacune de leurs sections.
Nous avons manuellement annoté un corpus de cinq articles totalisant 32 539 mots (293 chaînes et 2 870 maillons).
Une analyse préliminaire a fait ressortir l'hétérogénéité des chaînes de référence, tant par le type de leur référent que par la répartition de leurs occurrences dans le texte. Les référents abstraits (comme le burnout ou l'interdisciplinarité), les groupes (les étudiants), les entités de « type massif » (l'eau, l'azote), les entités définies (la Grotte des Treilles), etc. n'ont pas les mêmes caractéristiques et ne peuvent pas être décrits de la même façon. De même, il est difficile de ne pas séparer une chaîne saillante qui s'étend sur l'ensemble du texte d'une chaîne « éphémère » qui ne dépasse pas les limites d'une phrase.
Nous avons donc regroupé les référents en différentes classes (auteur, entités abstraites, entités concrètes et définies, noms massifs, ensembles, etc.) et les chaînes en différents groupes représentatifs de la répartition des maillons dans le texte (chaînes qui s'étendent sur l'ensemble du texte, chaînes concentrées dans un paragraphe, chaînes récurrentes, etc.).
Cette double typologie nous permet à la fois de modéliser le comportement des principaux types de chaînes mais aussi de proposer une analyse fine de la progression textuelle dans les articles de format IMRaD, et d'expliquer comment certains référents sont présents tout au long du texte, alors que d'autres n'apparaissent que dans certaines sections.
Chaînes de référence et structuration des textes: Le cas des textes encyclopédiques de l'ancien français à nos jours. Etude pilote. Journée d'Étude « Référence, coréférence et structure textuelle »
Oberle B., Schnedecker C., Baumer E., Capin D., Glikman J., Guo C., Revol T., Todirascu A. & Tushkova J.
Workshop “Référence, coréférence et structure textuelle”, November the 27th, 2017, Lyon
Ce travail s'inscrit dans le cadre du projet ANR « Democrat », dont l'un des objectifs linguistiques consiste à dégager l'évolution diachronique dans la composition des chaînes de référence. Dans ce contexte, la période historique considérée correspond à un empan très large, voire maximal, puisqu'elle englobe des textes allant du 12ème jusqu'au 21ème siècle, ce qui constitue en soi une approche inédite. Le second objectif de cette étude est de contribuer à l'évaluation de l'impact des genres discursifs sur les caractéristiques des chaînes de référence. Le choix du corpus s'est donc porté sur des textes relevant du même genre, à savoir les textes « encyclopédiques », d'une part parce qu'il existe encore relativement peu d'études sur les phénomènes référentiels et les chaînes de référence dans les textes « non-narratifs », et d'autre part parce que nous souhaitions voir si la structure particulière de ces textes avait un impact sur la composition des chaînes. Enfin, afin de neutraliser le paramètre des entités textuellement dominantes ou saillantes (la configuration des chaînes pouvant varier selon que le texte a pour topique une entité « concrète » ou « abstraite »), nous avons sélectionné des textes évoquant des animaux (en l'occurrence le renard, le loup, les abeilles et l'hirondelle), référents dont le « suivi » textuel est supposé peu problématique.
Notre présentation est structurée en quatre parties. Nous commencerons par présenter le corpus constitué (aspects « métatextuels », double caractérisation générique / linguistique), puis, dans un second temps, nous ferons un point sur la méthode utilisée pour annoter ce corpus (schéma d'annotation retenu, phases dans la méthode d'annotation). La troisième partie sera consacrée à la description des hypothèses formulées sur la composition des chaînes de référence (impact de l'évolution du système linguistique, effets de la saillance du référent, du découpage paragraphique, du type de séquences textuelles, instructions véhiculées par les procédures de segmentation textuelle). Enfin, dans la quatrième partie, nous présenterons les principaux résultats de notre étude, en insistant à la fois sur la dimension quantitative (points de stabilité et évolutions diachroniques, analyse quantitative globale et comparaison entre les chaînes « principales » et « secondaires », interaction des chaînes avec la structuration textuelle) et qualitative (effets du référent en tant qu'« entité », effets de l'évolution du système linguistique, effets de l'évolution du genre et des genres) de notre analyse.
En conclusion, nous montrerons que notre étude – bien qu'exploratoire, compte tenu de la taille limitée du corpus – permet d'esquisser des tendances à la fois sur l'évolution de la composition des chaînes de référence et sur l'histoire du genre encyclopédique. Nous rappellerons ainsi la nécessité d'une approche linguistique de l'évolution des genres, fondée sur la structure et les indices de cohésion textuelle – et non pas seulement sur les contenus, objectifs et conditions de production des textes.
Coreference annotation with SACR, a new drag-and-drop based tool
I have participated in the Democrat project(DEscription et Modélisation des Chaînes de Référence: outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique; Description and modeling of reference chains: tools for corpus annotation (with diachronic and cross-linguistic approaches) and automatic processing) sponsored by the French National Agency (Agence Nationale de la Recherche, ANR) from 2016 to 2020. This project aims to provide studies on coreference chains with a corpus of 500,000 words, an annotation tool and an automatic coreference resolution system (go to the project website, or the ANR website).
During this project:
I conducted several training sessions on the annotation softwares Analec, TXM (with the URS extension) and SACR,