Publications

home / publications

Show all: abstracts, bibtex codes.

Publications and communications sorted by date

Wilkens R., Oberle B., Landragin F., Todirascu A. (2020). French coreference for spoken and written language Proceedings of the 12th Edition of the Language Resources and Evaluation Conference (LREC 2020), Marseille, France.

Download: article,

Coreference resolution aims at identifying and grouping all mentions referring to the same entity. In French, most systems run different setups, making their comparison difficult. In this paper, we present an extensive comparison of several coreference resolution systems for French. The systems have been trained on two corpora (ANCOR for spoken language and Democrat for written language) annotated with coreference chains, and augmented with syntactic and semantic information. The models are compared with different configurations (e.g. with and without singletons). In addition, we evaluate mention detection and coreference resolution apart. We present a full-stack model that outperforms the other approaches. This model allows us to study the impact of mention detection errors on coreference resolution. Our analysis shows that mention detection can be improved focusing on boundary identification while advances in the pronoun-noun relation detection can aid the coreference task. Another contribution of this work is the first end-to-end neural French coreference resolution model trained on Democrat (written texts), which compares to the state-of-the-art systems for oral French.

@inproceedings{WilkensOberleLandraginTodirascu-2020-lrec, AUTHOR = {Wilkens, Rodrigo and Oberle, Bruno and Landragin, Fr{\'e}d{\'e}ric and Todirascu, Amalia}, TITLE = {French coreference for spoken and written language}, BOOKTITLE = {Proceedings of the Twelfth International Conference on Language Resources and Evaluation (LREC 2020)}, YEAR = {2020}, address = {Marseille, France}, publisher = {European Language Resources Association (ELRA)}, language = {english} }

Oberle B. (2019). Types de chaînes de référence dans les articles de recherche de format IMRaD Discours: Revue de linguistique, psycholinguistique et informatique. A journal of linguistics, psycholinguistics and computational linguistics, 25.

Download: article,

English: Many research articles in experimental sciences present a standardized form known as the IMRaD format, an acronym for “Introduction, Methods, Results and Discussion”. Each of these sections has a specific purpose (presenting the framework, describing the methodology, reporting the results and then discussing them), but also specific linguistic features. Our goal is to study coreference chains (all the expressions of a text that refer to the same extra-linguistic entity) in a corpus of French IMRaD articles (5 texts, 32 539 words). We show that different types of chains have specific features and that they cannot be study without distinction. We first categorize chains by the type of their referent and analyze in particular three of these types: author(s), abstract concepts and groups. We then define types of chains by features such as their prominence, their extend in the text, the distance between their elements, etc. This dual typology of coreference chains allows us to describe the main types of chains, but also to give a fine-grained analysis of the textual progression in IMRaD articles, especially how and why some referents are present in several sections while other are limited in one section only.

French: La plupart des articles de recherche en sciences expérimentales présentent un format standardisé, dit « IMRaD » (Introduction, Méthodes, Résultats et Discussion). Chacune de ces parties remplit une fonction spécifique (présenter le cadre de la recherche, décrire les méthodes, rapporter les observations, et les discuter) qui est marquée par une variation de certains phénomènes linguistiques. Notre recherche a pour objectif d'étudier le fonctionnement des chaînes de référence (l'ensemble des expressions linguistiques qui renvoient à la même entité extralinguistique) dans un corpus d'articles IMRaD écrits en français (5 textes, 32 539 mots). Notre analyse fait ressortir l'hétérogénéité des chaînes, tant par le type de leur référent que par la répartition de leurs occurrences dans le texte. Nous montrons que des chaînes de différents types de référents (notamment l'auteur de l'article, les référents abstraits et les groupes d'individus) n'ont pas les mêmes propriétés et ne peuvent pas être décrites de la même façon. De même, nous distinguons différents types de chaînes en fonction de caractéristiques telles que leur saillance, leur étendue dans le texte, la distance entre leurs éléments, etc. Cette double typologie des chaînes de référence nous permet à la fois de modéliser le comportement des principaux types de chaînes mais aussi de proposer une analyse fine de la progression textuelle dans les articles de format IMRaD, et d'expliquer comment certains référents sont présents tout au long du texte, alors que d'autres n'apparaissent que dans certaines sections.

@article{Oberle-2019-sacr-lrec, AUTHOR = {Bruno Oberle}, TITLE = {Types de cha{\^i}nes de r{\'e}f{\'e}rence dans les articles de recherche de format {IMRaD}}, JOURNAL = {Discours: Revue de linguistique, psycholinguistique et informatique.}, YEAR = {2019}, volume = {25}, }

Oberle B. (2019). Détection automatique de chaînes de coréférence pour le français écrit: règles et ressources adaptées au repérage de phénomènes linguistiques spécifiques. Actes des Rencontres des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, Association française pour l'Intelligence Artificielle, Toulouse, Juillet 2019.

Download: article, poster

English: We introduce a new rule-based coreference resolution system for written French. This system takes into account linguistic phenomena often ignored by other systems. First, we have built lexical resources to improve full NP coreference resolution (My cat... The animal), especially when a named entity is involved (The Seine... The river...). We have defined rules to detect groups of individuals (Peter and Paul) and null anaphora (Peter drinks and ø smoke). We have also defined rules to detect first and second person pronouns in quotations (Paul said : “I am a student”). This paper first presents how we built our lexical resources and how we defined our rules, then it describes how our system works and specifically what are the steps to resolve coreference.

French: Nous présentons un système end-to-end de détection automatique des chaînes de coréférence, à base de règles, pour le français écrit. Ce système insiste sur la prise en compte de phénomènes linguistiques négligés par d'autres systèmes. Nous avons élaboré des ressources lexicales pour la résolution des anaphores infidèles (Mon chat... Cet animal...), notamment lorsqu'elles incluent une entité nommée (La Seine... Ce fleuve...). Nous utilisons également des règles pour le repérage de mentions de groupes (Pierre et Paul) et d'anaphores zéros (Pierre boit et ø fume), ainsi que des règles pour la détection des pronoms de première et deuxième personnes dans les citations (Paul a dit : “Je suis étudiant.”). L'article présente l'élaboration des ressources et règles utilisées pour la gestion de ces phénomènes spécifiques, avant de décrire le système dans son ensemble, et notamment les différentes phases de la résolution de la coréférence.

@inproceedings{Oberle-2018-sacr-lrec, AUTHOR = {Bruno Oberle}, TITLE = {D{\'e}tection automatique de cha{\^i}nes de cor{\'e}f{\'e}rence pour le fran{\cc}ais {\'e}crit: r{\`e}gles et ressources adapt{\'e}es au rep{\'e}rage de ph{\'e}nom{\`e}nes linguistiques sp{\'e}cifiques}, BOOKTITLE = {Actes des Rencontres des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues}, YEAR = {2019}, month = {July}, address = {Toulouse, France}, publisher = {Association française pour l'Intelligence Artificielle}, }

Oberle B. (2019). Chaînes de référence et structuration textuelle: quelques indicateurs... Journée d'étude de projet ANR Democrat 14 juin 2019, Strasbourg, France.

Download: slides

English:What is the relation between coreference chains and textual structure? Can we predict thematic break from coreference chains. We demonstrate that looking at coreference is helpful to find thematic sections at a level between the paragraph and the chapter.

Oberle B. (2019). Annotating with SACR and exploiting annotations (CRViewer, Excel) Workshop at Cardiff University (Invited by Lise Fontaine). Cardiff, United Kingdom.

Download: slides

How to annotate with SACR? How to analyse the annotations with CRViewer and Excel?

Photo on twitter from Lise

Landragin F. et Oberle B. (2018). Identification automatique de chaînes de coréférences: vers une analyse des erreurs pour mieux cibler l'apprentissage. In Journée commune AFIA-ATALA sur le Traitement Automatique des Langues et l'Intelligence Artificielle, Onzième édition de la plate-forme Intelligence Artificielle (PFIA 2018). Nancy, France.

Download: article

English: Automatic identification of coreference chains: Towards a linguistic analysis of errors in order to improve machine learning features. -- We present a preliminary qualitative study dealing with the linguistic analysis of the errors made by NLP systems dedicated to the automatic detection of coreference chains. We describe several cases of noise and silence, characterized with different degrees of importance, as well as coreference-specific types of errors, for instance the construction of "catch-all" chains that group non-used referring expressions. In order to further define a generalizable methodology, we propose a first typology of errors, and some guidelines for their consideration within the machine learning process. This research implies considerations on the possible types of hybrid systems.

Français: Nous présentons une étude qualitative préliminaire concernant l'analyse linguistique des erreurs commises par des systèmes de détection automatique de chaînes de coréférences. Nous soulignons plusieurs cas de bruit et de silence, caractérisés par des gravités différentes, ainsi que des types d'erreurs spécifiques, notamment la construction de chaînes « fourre-tout » regroupant des expressions référentielles inexploitées par ailleurs. Dans le but de définir une méthodologie généralisable, nous proposons une première typologie d'erreurs et quelques pistes de réflexion pour leur prise en compte à terme dans les processus d'apprentissage, ce qui passe par des considérations sur les types d'hybridation à envisager pour ces processus.

@inproceedings{LandraginOberle-2018-analyse-erreurs, AUTHOR = {Landragin, Fr{\'e}d{\'e}ric and Oberle, Bruno}, TITLE = {Identification automatique de cha{\^i}nes de cor{\'e}f{\'e}rences: vers une analyse des erreurs pour mieux cibler l'apprentissage}, BOOKTITLE = {{Journ{\'e}e commune AFIA-ATALA sur le Traitement Automatique des Langues et l'Intelligence Artificielle, Onzi{\`e}me {\'e}dition de la plate-forme Intelligence Artificielle (PFIA 2018)}}, YEAR = {2018}, }

Oberle B. (2018). SACR: A Drag-and-Drop Based Tool for Coreference Annotation. Proceedings of the 11th Edition of the Language Resources and Evaluation Conference (LREC 2018). Miyazaki, Japan.

Download: article, poster

This paper introduces SACR, an easy-to-use coreference chain annotation tool, which is used to annotate large corpora for Natural Language Processing applications. Coreference annotation is usually considered as costly both in terms of time and human resources. So, in order to find the easiest annotation strategy, we will first of all compare several annotation schemes implemented in existing tools. Since interface ergonomics is also an important part of our research, we then focus on identifying the most helpful features to reduce the strain for annotators. In the next section of the paper, we present SACR in details. This tool has been developped specifically for coreference annotation, and its intuitive user interface has been designed to facilitate and speed up the annotation process, making SACR equally suited for students, occasional and non-technical users. In order to create coreference chains, elements are selected by clicking on the corresponding tokens. Coreference relations are then created by drag-and-dropping expressions one over the other. Finally, color frames around marked expressions help the user to visualize both marked expressions and their relations. SACR is open source, distributed under the terms of the Mozilla Public License, version 2.0, and freely available online.

@inproceedings{Oberle-2018-sacr-lrec, AUTHOR = {Bruno Oberle}, TITLE = "{{SACR}: A Drag-and-Drop Based Tool for Coreference Annotation}", BOOKTITLE = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, YEAR = {2018}, month = {May 7-12, 2018}, address = {Miyazaki, Japan}, publisher = {European Language Resources Association (ELRA)}, isbn = {979-10-95546-00-9}, language = {english} }

Oberle B. (2018). Les noms d'humains en -phobe. In Schnedecker C. et Mihatsch W., Nouvelles approches en sémantique lexicale: les noms d'humains (théorie, méthodologie, classification). De Gruyter.

Constructions néoclassiques récentes, formées avec un élément d'origine grecque et d'un élément d'origine soit classique soit française, les NH-phobe se caractérisent d'abord par une grande productivité, avec de nombreuses créations, que les éléments soient « triviaux » (araignée-phobe) ou, au contraire, très « recherchés » (blemmophobe).

Face aux catégorisations sémantiques données par les dictionnaires, qui répartissent les NH-phobe entre peur, haine et aversion, il convient de faire preuve de prudence: non seulement le sens de ‑phobe ne semble pas stabilisé (anglophobe pourra aussi bien désigner quelqu'un qui hait les Anglais, que, dans certains contextes, quelqu'un qui ne parle tout simplement pas anglais), mais surtout les deux principaux sens (peur et haine) semblent cohabiter dans l'esprit des locuteurs, qui se sentent parfois obligés de préciser le sens qu'ils donnent à ‑phobe, quand ils ne jouent pas sur la polysémie de l'élément pour masquer leur haine.

L'analyse comparative des quatre discours représentés dans notre corpus a mis en évidence certaines contraintes pesant sur l'usage des NH-phobe. Ceux-ci sont ainsi beaucoup plus fréquents dans la langue informelle des sous-titres, alors que les documents formels et administratifs privilégient l'usage de l'adjectif et n'en contiennent presque aucun. La distribution lexicale varie également selon le discours: les films et les séries s'intéressent surtout aux homophobes, les députés européens aux xénophobes et la presse, les forums et les blogs aux deux à la fois.

D'autres phénomènes ont été révélés par une analyse plus fine des propriétés syntaxiques et sémantiques des NH-phobe; par exemple l'opposition entre un usage générique, pluriel, au genre indéterminé dans les débats parlementaires européens, et un usage plus spécifique, singulier, avec plus d'expansions, dans les dialogues des films et séries; mais aussi la peur (claustrophobe, arachnophobe) plus souvent associée aux femmes qu'aux hommes; ou encore l'usage fréquent des NH-phobe comme insultes.

Si nos remarques ont surtout été descriptives, nous avons essayé d'offrir une vue d'ensemble de ces NH, non seulement en tant que constructions (notre étude qualitative), mais aussi en tant que composés qui s'inscrivent dans des usages spécifiques (notre étude quantitative). Plusieurs des phénomènes que nous avons mis en avant mériteraient une analyse plus approfondie, notamment celui de la polysémie de l'élément ‑phobe et celui de la corrélation entre certains phénomènes syntaxiques ou sémantiques et le type de discours. De plus, certaines de ces propriétés, en faisant l'objet d'une étude plus poussée, pourraient servir de base à une sous-catégorisation des NH-phobe, ce qui permettrait, à terme, de les intégrer dans des classifications plus larges des noms d'humains, comme celles de Gross (2011), El Chérif (2011) ou Schnedecker (2015). Enfin, il conviendrait d'envisager l'étude contrastive des NH-phobe et d'autres composés néoclassiques nominaux, tels que ceux formés, par exemple, à partir de ‑phile, ‑mane ou ‑graphe.

@incollection{Oberle-2018-phobe, AUTHOR = {Oberle, Bruno}, TITLE = {Les noms d'humains en \emph{-phobe}}, BOOKTITLE = {Nouvelles approches en s{\'e}mantique lexicale: les noms d'humains (th{\'e}orie, m{\'e}thodologie, classification)}, PUBLISHER = {De Gruyter}, YEAR = {2018}, editor = {Schnedecker, Catherine and Mihatsch, Wiltrud}, }

Oberle B. (2018). Research Articles From Plos Biology: A Textual Data Analysis. In Wang X. 篇章分析——对汉语、法语指称链条分布规律的实证研究及其标注 (Analyse textuelle: études des chaînes référentielles en chinois et en français; Textual Analysis: Coreference Chains in Chinese and French). Beijing Language and Culture University Press.

Download: article

Many research articles in experimental sciences present a standardized form known as the “IMRaD format”, an acronym for Introduction, Methods, Results and Discussion. Linguists have pointed out that each section serves a specific rhetorical function. This article aims at exploring the relation between linguistic features and the rhetorical function of each section. We studied 966 research articles from the journal Plos Biology. Topic modelling and correspondence analysis highlighted linguistic features associated with the rhetorical function of each section. However, lexical diversity revealed some features that point out a change in the rhetorical function traditionally associated with Methods sections, because Plos Biology uses a slightly modified IMRaD format, in which Methods sections are at the end of articles.

@incollection{Oberle-2018-imrad-plos-biology, AUTHOR = {Oberle, Bruno}, TITLE = {Research Articles From \emph{{Plos Biology}}: A Textual Data Analysis}, BOOKTITLE = {Textual Analysis: Coreference Chains in Chinese and French}, PUBLISHER = {Beijing Language and Culture University Press}, YEAR = {2018}, editor = {Wang, Xiuli}, }

Oberle B. (2018). L'apport de l'analyse des erreurs pour la détection automatique de la coréférence. Doctoriales de LiLPa. 1er juin 2018. Strasbourg.

Oberle B. (2018). ODACR: un Outil de Détection Automatique des Chaînes de Référence à base de règles linguistiques. Réunion plénière du projet Democrat. 13 mars 2018. Paris.

Le Mené M. et Oberle B. (2018). Regard sur l'annotation de Democrat. Réunion plénière du projet Democrat. 12 mars 2018. Paris.

Oberle B. (2017). Étude des chaînes de référence dans les articles de recherche de format IMRaD. Journée d'Étude « Référence, coréférence et structure textuelle ». 27 novembre 2017. Lyon.

Download: slides

La plupart des articles de recherche en sciences expérimentales présentent un format standardisé, dit « IMRaD » pour Introduction, Méthodes, Résultats et Discussion. Chacune de ces parties remplit une fonction spécifique (présenter le cadre de la recherche, décrire la méthodologie de l'expérimentation, rapporter les observations, puis les discuter et les généraliser) qui est marquée par une variation de certains phénomènes linguistiques. C'est dans ce cadre que s'inscrit notre recherche, dont l'objectif est d'étudier le fonctionnement des chaînes de référence, définies comme l'ensemble des expressions linguistiques (les « maillons » de la chaîne) qui renvoient à la même entité extralinguistique, dans les articles de format IMRaD, et plus spécifiquement dans chacune de leurs sections.

Nous avons manuellement annoté un corpus de cinq articles totalisant 32 539 mots (293 chaînes et 2 870 maillons).

Une analyse préliminaire a fait ressortir l'hétérogénéité des chaînes de référence, tant par le type de leur référent que par la répartition de leurs occurrences dans le texte. Les référents abstraits (comme le burnout ou l'interdisciplinarité), les groupes (les étudiants), les entités de « type massif » (l'eau, l'azote), les entités définies (la Grotte des Treilles), etc. n'ont pas les mêmes caractéristiques et ne peuvent pas être décrits de la même façon. De même, il est difficile de ne pas séparer une chaîne saillante qui s'étend sur l'ensemble du texte d'une chaîne « éphémère » qui ne dépasse pas les limites d'une phrase.

Nous avons donc regroupé les référents en différentes classes (auteur, entités abstraites, entités concrètes et définies, noms massifs, ensembles, etc.) et les chaînes en différents groupes représentatifs de la répartition des maillons dans le texte (chaînes qui s'étendent sur l'ensemble du texte, chaînes concentrées dans un paragraphe, chaînes récurrentes, etc.).

Cette double typologie nous permet à la fois de modéliser le comportement des principaux types de chaînes mais aussi de proposer une analyse fine de la progression textuelle dans les articles de format IMRaD, et d'expliquer comment certains référents sont présents tout au long du texte, alors que d'autres n'apparaissent que dans certaines sections.

@inproceedings{Oberle-2017-imrad-articles-scientifiques, AUTHOR = {Oberle, Bruno}, TITLE = {Etude des chaînes de référence dans les articles de recherche de format {IMRaD}}, YEAR = {2017}, BOOKTITLE = {Journ{\'e}e d'Etude ``R{\'e}f{\'e}rence, cor{\'e}f{\'e}rence et structure textuelle''}, address = {Lyon} }

Oberle B., Schnedecker C., Baumer E., Capin D., Glikman J., Guo C., Revol T., Todirascu A., Tushkova J. (2017). Chaînes de référence et structuration des textes: Le cas des textes encyclopédiques de l'ancien français à nos jours. Etude pilote. Journée d'Étude « Référence, coréférence et structure textuelle ». 27 novembre 2017. Lyon.

Ce travail s'inscrit dans le cadre du projet ANR « Democrat », dont l'un des objectifs linguistiques consiste à dégager l'évolution diachronique dans la composition des chaînes de référence. Dans ce contexte, la période historique considérée correspond à un empan très large, voire maximal, puisqu'elle englobe des textes allant du 12ème jusqu'au 21ème siècle, ce qui constitue en soi une approche inédite. Le second objectif de cette étude est de contribuer à l'évaluation de l'impact des genres discursifs sur les caractéristiques des chaînes de référence. Le choix du corpus s'est donc porté sur des textes relevant du même genre, à savoir les textes « encyclopédiques », d'une part parce qu'il existe encore relativement peu d'études sur les phénomènes référentiels et les chaînes de référence dans les textes « non-narratifs », et d'autre part parce que nous souhaitions voir si la structure particulière de ces textes avait un impact sur la composition des chaînes. Enfin, afin de neutraliser le paramètre des entités textuellement dominantes ou saillantes (la configuration des chaînes pouvant varier selon que le texte a pour topique une entité « concrète » ou « abstraite »), nous avons sélectionné des textes évoquant des animaux (en l'occurrence le renard, le loup, les abeilles et l'hirondelle), référents dont le « suivi » textuel est supposé peu problématique.

Notre présentation est structurée en quatre parties. Nous commencerons par présenter le corpus constitué (aspects « métatextuels », double caractérisation générique / linguistique), puis, dans un second temps, nous ferons un point sur la méthode utilisée pour annoter ce corpus (schéma d'annotation retenu, phases dans la méthode d'annotation). La troisième partie sera consacrée à la description des hypothèses formulées sur la composition des chaînes de référence (impact de l'évolution du système linguistique, effets de la saillance du référent, du découpage paragraphique, du type de séquences textuelles, instructions véhiculées par les procédures de segmentation textuelle). Enfin, dans la quatrième partie, nous présenterons les principaux résultats de notre étude, en insistant à la fois sur la dimension quantitative (points de stabilité et évolutions diachroniques, analyse quantitative globale et comparaison entre les chaînes « principales » et « secondaires », interaction des chaînes avec la structuration textuelle) et qualitative (effets du référent en tant qu'« entité », effets de l'évolution du système linguistique, effets de l'évolution du genre et des genres) de notre analyse.

En conclusion, nous montrerons que notre étude – bien qu'exploratoire, compte tenu de la taille limitée du corpus – permet d'esquisser des tendances à la fois sur l'évolution de la composition des chaînes de référence et sur l'histoire du genre encyclopédique. Nous rappellerons ainsi la nécessité d'une approche linguistique de l'évolution des genres, fondée sur la structure et les indices de cohésion textuelle – et non pas seulement sur les contenus, objectifs et conditions de production des textes.

@inproceedings{Oberle-2017-structuration-des-textes, AUTHOR = {Oberle, Bruno and Schnedecker, Catherine and Baumer, Emmanuel and Capin, Daniela and Glikman, Julie and Guo, Chang and Revol, Thierry and Todirascu, Amalia and Tushkova, Julia}, TITLE = {Cha{\^i}nes de r{\'e}f{\'e}rence et structuration des textes: Le cas des textes encyclop{\'e}diques de l'ancien fran{\c c}ais {\`a} nos jours. {E}tude pilote}, YEAR = {2017}, BOOKTITLE = {Journ{\'e}e d'Etude ``R{\'e}f{\'e}rence, cor{\'e}f{\'e}rence et structure textuelle''}, address = {Lyon} }

Oberle B. (2017). Coreference annotation with SACR, a new drag-and-drop based tool. Workshop Eclavit. 24 novembre 2018. Paris.

Download: poster

@inproceedings{Oberle-2017-sacr-eclavit, AUTHOR = {Oberle, Bruno}, TITLE = {Coreference annotation with {SACR}, a new drag-and-drop based tool}, BOOKTITLE = {Workshop Eclavit}, YEAR = {2017}, address = {Paris} }

Projects

I am currently involved in the Democrat project (DEscription et Modélisation des Chaînes de Référence: outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique; Description and modeling of reference chains: tools for corpus annotation (with diachronic and cross-linguistic approaches) and automatic processing).

Master theses

I have two master degrees, one in Computational Linguistics and one in French Linguistics. I have written two master theses, which can be downloaded here (Linguistics) and here (Computational Linguistics).