Python & web developer with 5 years of experience, I have been working at a cybersecurity firm for 2 years. I have worked 3 years with machine learning techniques applied to textual data processing (NLP). I build SaaS applications in Python and JavaScript with Flask and Django, but I also have experiences with Java, C/C++, Go and Perl.
Annotate mentions and coreference relations with a simple drag-and-drop. Support for feature annotation for each mention: part of speech, gender, number, grammatical function, etc.
Coreference databases and corpora for English and French (corefdb)
Analyse coreference in a corpus with a relational databases containing tables for coreference data (mentions, chains, relations) as well as for textual structures (tokens, sentences, paragraphs, texts). Includes linguistic annotations (part of speech, named entity, etc.).
Enriched version of the Democrat corpus for French.
Neural coreference resolution system for French (cofr)
Automatically detect mentions (including singletons) and coreference relations in a French text with this neural network adaptation of a tool originally designed of English.
A web site to search through coreference data in French (Democrat and Ancor corpora) and compute statistics online.
Annotate, load and analyse your own data.
Will be online soon!
Coreference chains in research articles (master thesis)
A corpus linguistic study of coreference chains in IMRaD research articles: discussing the concepts of referring expression and coreference, building the corpus (webscrapping), designing annotation guidelines, annotating the texts, analyzing the annotations.
This is one of my 2 master theses (in “French linguistics”).
In total, 9 peer-reviewed published (written) papers and 8 communications in workshops. Among them, 6 are in English, the others in French. Here is a selection of my publications.
Coreference resolution aims at identifying and grouping all mentions referring to the same entity. In French, most systems run different setups, making their comparison difficult. In this paper, we present an extensive comparison of several coreference resolution systems for French. The systems have been trained on two corpora (ANCOR for spoken language and Democrat for written language) annotated with coreference chains, and augmented with syntactic and semantic information. The models are compared with different configurations (e.g. with and without singletons). In addition, we evaluate mention detection and coreference resolution apart. We present a full-stack model that outperforms the other approaches. This model allows us to study the impact of mention detection errors on coreference resolution. Our analysis shows that mention detection can be improved focusing on boundary identification while advances in the pronoun-noun relation detection can aid the coreference task. Another contribution of this work is the first end-to-end neural French coreference resolution model trained on Democrat (written texts), which compares to the state-of-the-art systems for oral French.
Types de chaînes de référence dans les articles de recherche de format IMRaD
Oberle B.
Discours: A journal of linguistics, psycholinguistics and computational linguistics, 25 (2020)
English: Many research articles in experimental sciences present a standardized form known as the IMRaD format, an acronym for “Introduction, Methods, Results and Discussion”. Each of these sections has a specific purpose (presenting the framework, describing the methodology, reporting the results and then discussing them), but also specific linguistic features. Our goal is to study coreference chains (all the expressions of a text that refer to the same extra-linguistic entity) in a corpus of French IMRaD articles (5 texts, 32 539 words). We show that different types of chains have specific features and that they cannot be study without distinction. We first categorize chains by the type of their referent and analyze in particular three of these types: author(s), abstract concepts and groups. We then define types of chains by features such as their prominence, their extend in the text, the distance between their elements, etc. This dual typology of coreference chains allows us to describe the main types of chains, but also to give a fine-grained analysis of the textual progression in IMRaD articles, especially how and why some referents are present in several sections while other are limited in one section only.
French: La plupart des articles de recherche en sciences expérimentales présentent un format standardisé, dit « IMRaD » (Introduction, Méthodes, Résultats et Discussion). Chacune de ces parties remplit une fonction spécifique (présenter le cadre de la recherche, décrire les méthodes, rapporter les observations, et les discuter) qui est marquée par une variation de certains phénomènes linguistiques. Notre recherche a pour objectif d'étudier le fonctionnement des chaînes de référence (l'ensemble des expressions linguistiques qui renvoient à la même entité extralinguistique) dans un corpus d'articles IMRaD écrits en français (5 textes, 32 539 mots). Notre analyse fait ressortir l'hétérogénéité des chaînes, tant par le type de leur référent que par la répartition de leurs occurrences dans le texte. Nous montrons que des chaînes de différents types de référents (notamment l'auteur de l'article, les référents abstraits et les groupes d'individus) n'ont pas les mêmes propriétés et ne peuvent pas être décrites de la même façon. De même, nous distinguons différents types de chaînes en fonction de caractéristiques telles que leur saillance, leur étendue dans le texte, la distance entre leurs éléments, etc. Cette double typologie des chaînes de référence nous permet à la fois de modéliser le comportement des principaux types de chaînes mais aussi de proposer une analyse fine de la progression textuelle dans les articles de format IMRaD, et d'expliquer comment certains référents sont présents tout au long du texte, alors que d'autres n'apparaissent que dans certaines sections.
Détection automatique de chaînes de coréférence pour le français écrit: règles et ressources adaptées au repérage de phénomènes linguistiques spécifiques
Oberle B.
Actes des Rencontres des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (TALN-RECITAL), Association française pour l'Intelligence Artificielle, Toulouse (2019)
English: We introduce a new rule-based coreference resolution system for written French. This system takes into account linguistic phenomena often ignored by other systems. First, we have built lexical resources to improve full NP coreference resolution (My cat... The animal), especially when a named entity is involved (The Seine... The river...). We have defined rules to detect groups of individuals (Peter and Paul) and null anaphora (Peter drinks and ø smoke). We have also defined rules to detect first and second person pronouns in quotations (Paul said : “I am a student”). This paper first presents how we built our lexical resources and how we defined our rules, then it describes how our system works and specifically what are the steps to resolve coreference.
French: Nous présentons un système end-to-end de détection automatique des chaînes de coréférence, à base de règles, pour le français écrit. Ce système insiste sur la prise en compte de phénomènes linguistiques négligés par d'autres systèmes. Nous avons élaboré des ressources lexicales pour la résolution des anaphores infidèles (Mon chat... Cet animal...), notamment lorsqu'elles incluent une entité nommée (La Seine... Ce fleuve...). Nous utilisons également des règles pour le repérage de mentions de groupes (Pierre et Paul) et d'anaphores zéros (Pierre boit et ø fume), ainsi que des règles pour la détection des pronoms de première et deuxième personnes dans les citations (Paul a dit : “Je suis étudiant.”). L'article présente l'élaboration des ressources et règles utilisées pour la gestion de ces phénomènes spécifiques, avant de décrire le système dans son ensemble, et notamment les différentes phases de la résolution de la coréférence.
Annotating with SACR and exploiting annotations (CRViewer, Excel)
Oberle B.
Workshop at Cardiff University (invited by Lise Fontaine), United Kingdom, May the 10th, 2019
Chaînes de référence et structuration textuelle: quelques indicateurs...
Oberle B.
Workshop “Mesures statistiques et approches quantitatives”, LiLPa (Linguistique, Langues, Parole), UR 1339, Université de Strasbourg, 14 juin 2019, Strasbourg, France
English:What is the relation between coreference chains and textual structure? Can we predict thematic break from coreference chains. We demonstrate that looking at coreference is helpful to find thematic sections at a level between the paragraph and the chapter.
SACR: A Drag-and-Drop Based Tool for Coreference Annotation
Oberle B.
Proceedings of the 11th Edition of the Language Resources and Evaluation Conference (LREC), Miyazaki, Japan (2018)
This paper introduces SACR, an easy-to-use coreference chain annotation tool, which is used to annotate large corpora for Natural Language Processing applications. Coreference annotation is usually considered as costly both in terms of time and human resources. So, in order to find the easiest annotation strategy, we will first of all compare several annotation schemes implemented in existing tools. Since interface ergonomics is also an important part of our research, we then focus on identifying the most helpful features to reduce the strain for annotators. In the next section of the paper, we present SACR in details. This tool has been developed specifically for coreference annotation, and its intuitive user interface has been designed to facilitate and speed up the annotation process, making SACR equally suited for students, occasional and non-technical users. In order to create coreference chains, elements are selected by clicking on the corresponding tokens. Coreference relations are then created by drag-and-dropping expressions one over the other. Finally, color frames around marked expressions help the user to visualize both marked expressions and their relations. SACR is open source, distributed under the terms of the Mozilla Public License, version 2.0, and freely available online.
Les chaînes de référence dans les textes encyclopédiques du 12e au 21e siècle: étude longitudinale
Oberle B., Schnedecker C., Baumer E., Capin D., Glikman J., Guo C., Revol T., Todirascu A. & Tushkova J.
English: (Co-referential chains in encyclopedic texts from the 12th to the 21st century : a longitudinal study) This innovative study aims at identifying diachronic changes in the composition of co-referential chains over a very large period of time. It covers texts of an encyclopedic nature, featuring referents of the same type (animals), and dating from the 12th to the 21st century, in order to highlight the impact of two factors that are supposed to influence co-referential chains : discourse genre and time of writing. The study is based on a corpus of 13,623 words (4,418 referential expressions), for which all referents have been annotated.
Français: Cette étude originale vise à dégager l’évolution diachronique dans la composition des chaînes de référence sur une diachronie très large, couvrant des textes à caractère encyclopédique allant du 12e au 21e siècle et portant sur des référents de même type (des animaux). L’objectif est de faire ressortir l’impact des facteurs censés influencer les chaînes de référence: leur genre discursif d’occurrence et l’époque de leur composition. L’étude s’appuie sur un corpus annoté en références et coréférences de 13 623 mots (4 418 expressions référentielles), dont tous les référents ont été annotés.
Les noms d'humains en -phobe
Oberle B.
In Schnedecker C. et Mihatsch W., Nouvelles approches en sémantique lexicale: les noms d'humains (théorie, méthodologie, classification). De Gruyter (2018)
Constructions néoclassiques récentes, formées avec un élément d'origine grecque et d'un élément d'origine soit classique soit française, les NH-phobe se caractérisent d'abord par une grande productivité, avec de nombreuses créations, que les éléments soient « triviaux » (araignée-phobe) ou, au contraire, très « recherchés » (blemmophobe).
Face aux catégorisations sémantiques données par les dictionnaires, qui répartissent les NH-phobe entre peur, haine et aversion, il convient de faire preuve de prudence: non seulement le sens de ‑phobe ne semble pas stabilisé (anglophobe pourra aussi bien désigner quelqu'un qui hait les Anglais, que, dans certains contextes, quelqu'un qui ne parle tout simplement pas anglais), mais surtout les deux principaux sens (peur et haine) semblent cohabiter dans l'esprit des locuteurs, qui se sentent parfois obligés de préciser le sens qu'ils donnent à ‑phobe, quand ils ne jouent pas sur la polysémie de l'élément pour masquer leur haine.
L'analyse comparative des quatre discours représentés dans notre corpus a mis en évidence certaines contraintes pesant sur l'usage des NH-phobe. Ceux-ci sont ainsi beaucoup plus fréquents dans la langue informelle des sous-titres, alors que les documents formels et administratifs privilégient l'usage de l'adjectif et n'en contiennent presque aucun. La distribution lexicale varie également selon le discours: les films et les séries s'intéressent surtout aux homophobes, les députés européens aux xénophobes et la presse, les forums et les blogs aux deux à la fois.
D'autres phénomènes ont été révélés par une analyse plus fine des propriétés syntaxiques et sémantiques des NH-phobe; par exemple l'opposition entre un usage générique, pluriel, au genre indéterminé dans les débats parlementaires européens, et un usage plus spécifique, singulier, avec plus d'expansions, dans les dialogues des films et séries; mais aussi la peur (claustrophobe, arachnophobe) plus souvent associée aux femmes qu'aux hommes; ou encore l'usage fréquent des NH-phobe comme insultes.
Si nos remarques ont surtout été descriptives, nous avons essayé d'offrir une vue d'ensemble de ces NH, non seulement en tant que constructions (notre étude qualitative), mais aussi en tant que composés qui s'inscrivent dans des usages spécifiques (notre étude quantitative). Plusieurs des phénomènes que nous avons mis en avant mériteraient une analyse plus approfondie, notamment celui de la polysémie de l'élément ‑phobe et celui de la corrélation entre certains phénomènes syntaxiques ou sémantiques et le type de discours. De plus, certaines de ces propriétés, en faisant l'objet d'une étude plus poussée, pourraient servir de base à une sous-catégorisation des NH-phobe, ce qui permettrait, à terme, de les intégrer dans des classifications plus larges des noms d'humains, comme celles de Gross (2011), El Chérif (2011) ou Schnedecker (2015). Enfin, il conviendrait d'envisager l'étude contrastive des NH-phobe et d'autres composés néoclassiques nominaux, tels que ceux formés, par exemple, à partir de ‑phile, ‑mane ou ‑graphe.