Développeur Python & Web avec 5 ans d'expérience professionnelle, je travaille depuis 2 ans dans le domaine de la cybersécurité. J'ai fait 3 ans de recherche en machine learning appliqué au traitement de données textuelles (TAL/NLP). Je développe des applications SaaS en Python et JavaScript avec Flask et Django, mais j'utilise aussi Java, C/C++, Go et Perl.
Traitement Automatique des Langues (TAL), programmation, linguistique, mais aussi grec ancien, électronique, photographie... Voici une sélection de mes projets.
Des données pour remplir vos prototypes ou tester vos bases de données? Trouvez des données extraites aléatoirement de Wikipédia.
De simples listes de noms ou d'emails à des tableaux ou des structures plus complexes avec boucles et groupements (group by). Avec des textes complets en html. Et des images.
Pour annoter des mentions et des relations de coréférence avec un simple glisser-déposé (drag-and-drop). Annotation de propriéteś pur chaque mention: partie du discours (noun, pronom, etc.), genre, nombre, fonction, etc.
Base de données et corpus de coréférence pour l'anglais et le français (corefdb)
Pour étudier les phénomènes de coréférence avec une base de données relationnelle contenant des tables pour coréférence (mentions, chaînes, relaations) et pour les structures textuelles (tokens, phrases, paragraphes, textes). Avec des annotations linguistiques (parties du discours, entités nommées, etc.).
Version enrichie d'annotation linguistiques du corpus Democrat pour le français.
Système neuronal de résolution automatique de la coréférence pour le français (cofr)
Pour détecter automatiquement les mentions (y compris des singletons) et les relations de coréférence dans un texte. Le système est une adaptation pour le français d'un système originellement conçu pour l'anglais.
Fiches de linguistique et de grammaire grecque (grec ancien)
Pour apprendre le grec ancien avec 150 fiches de linguistique et de grammaire (419 pages): morphologie (déclinaison, conjugaison), phonétique, syntaxe, usage des temps et modes...
Un site web pour découvrir la coréférence en français (corpus Democrat et Ancor) et calculer des statistiques.
Annotez, chargez et analysez vos propres données.
Bientôt en ligne!
Les chaînes de coréférence dans les articles scientifiques (mémoire de master)
Une étude en linguistique de corpus des chaînes de coréférence dans les articles de recherche de format IMRaD: discussion des notions d'expression référentielle et de coréférence, constitution du corpus (webscrapping), conception d'un guide d'annotation, annotation des textes, analyse des annotations.
C'est l'un de mes deux mémoires de master (en “Sciences du Langage”).
Visualisation sous forme d'arbres de la sortie d'analyseurs syntaxiques (dependency2tree)
Pour représenter les sorties CoNLL d'analyseurs syntaxiques tels que StanfordNLP (pour l'anglais) ou Talismane (pour le français) sous forme d'arbres compilés avec Latex ou Graphviz.
Pour chercher des patterns dans une liste d'objets, comme des tokens. Par exemple:
[pos="determiner"][pos="noun" lemma="cat"]
pour trouver un déterminant suivi d'un nom avec le lemme cat. Ce module fonctionne pour des objets de toutes disciplines, par seulement en linguistique!
Au total, 9 articles publiés en peer-review et 8 communications dans des workshops et journées d'études. Parmi les articles et communications, 6 sont en anglais, les autres en français. Voici une sélection de mes publications.
Coreference resolution aims at identifying and grouping all mentions referring to the same entity. In French, most systems run different setups, making their comparison difficult. In this paper, we present an extensive comparison of several coreference resolution systems for French. The systems have been trained on two corpora (ANCOR for spoken language and Democrat for written language) annotated with coreference chains, and augmented with syntactic and semantic information. The models are compared with different configurations (e.g. with and without singletons). In addition, we evaluate mention detection and coreference resolution apart. We present a full-stack model that outperforms the other approaches. This model allows us to study the impact of mention detection errors on coreference resolution. Our analysis shows that mention detection can be improved focusing on boundary identification while advances in the pronoun-noun relation detection can aid the coreference task. Another contribution of this work is the first end-to-end neural French coreference resolution model trained on Democrat (written texts), which compares to the state-of-the-art systems for oral French.
Types de chaînes de référence dans les articles de recherche de format IMRaD
Oberle B.
Discours: Revue de linguistique, psycholinguistique et informatique. A journal of linguistics, psycholinguistics and computational linguistics, 25 (2020)
English: Many research articles in experimental sciences present a standardized form known as the IMRaD format, an acronym for “Introduction, Methods, Results and Discussion”. Each of these sections has a specific purpose (presenting the framework, describing the methodology, reporting the results and then discussing them), but also specific linguistic features. Our goal is to study coreference chains (all the expressions of a text that refer to the same extra-linguistic entity) in a corpus of French IMRaD articles (5 texts, 32 539 words). We show that different types of chains have specific features and that they cannot be study without distinction. We first categorize chains by the type of their referent and analyze in particular three of these types: author(s), abstract concepts and groups. We then define types of chains by features such as their prominence, their extend in the text, the distance between their elements, etc. This dual typology of coreference chains allows us to describe the main types of chains, but also to give a fine-grained analysis of the textual progression in IMRaD articles, especially how and why some referents are present in several sections while other are limited in one section only.
French: La plupart des articles de recherche en sciences expérimentales présentent un format standardisé, dit « IMRaD » (Introduction, Méthodes, Résultats et Discussion). Chacune de ces parties remplit une fonction spécifique (présenter le cadre de la recherche, décrire les méthodes, rapporter les observations, et les discuter) qui est marquée par une variation de certains phénomènes linguistiques. Notre recherche a pour objectif d'étudier le fonctionnement des chaînes de référence (l'ensemble des expressions linguistiques qui renvoient à la même entité extralinguistique) dans un corpus d'articles IMRaD écrits en français (5 textes, 32 539 mots). Notre analyse fait ressortir l'hétérogénéité des chaînes, tant par le type de leur référent que par la répartition de leurs occurrences dans le texte. Nous montrons que des chaînes de différents types de référents (notamment l'auteur de l'article, les référents abstraits et les groupes d'individus) n'ont pas les mêmes propriétés et ne peuvent pas être décrites de la même façon. De même, nous distinguons différents types de chaînes en fonction de caractéristiques telles que leur saillance, leur étendue dans le texte, la distance entre leurs éléments, etc. Cette double typologie des chaînes de référence nous permet à la fois de modéliser le comportement des principaux types de chaînes mais aussi de proposer une analyse fine de la progression textuelle dans les articles de format IMRaD, et d'expliquer comment certains référents sont présents tout au long du texte, alors que d'autres n'apparaissent que dans certaines sections.
Détection automatique de chaînes de coréférence pour le français écrit: règles et ressources adaptées au repérage de phénomènes linguistiques spécifiques
Oberle B.
Actes des Rencontres des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (TALN-RECITAL), Association française pour l'Intelligence Artificielle, Toulouse (2019)
English: We introduce a new rule-based coreference resolution system for written French. This system takes into account linguistic phenomena often ignored by other systems. First, we have built lexical resources to improve full NP coreference resolution (My cat... The animal), especially when a named entity is involved (The Seine... The river...). We have defined rules to detect groups of individuals (Peter and Paul) and null anaphora (Peter drinks and ø smoke). We have also defined rules to detect first and second person pronouns in quotations (Paul said : “I am a student”). This paper first presents how we built our lexical resources and how we defined our rules, then it describes how our system works and specifically what are the steps to resolve coreference.
French: Nous présentons un système end-to-end de détection automatique des chaînes de coréférence, à base de règles, pour le français écrit. Ce système insiste sur la prise en compte de phénomènes linguistiques négligés par d'autres systèmes. Nous avons élaboré des ressources lexicales pour la résolution des anaphores infidèles (Mon chat... Cet animal...), notamment lorsqu'elles incluent une entité nommée (La Seine... Ce fleuve...). Nous utilisons également des règles pour le repérage de mentions de groupes (Pierre et Paul) et d'anaphores zéros (Pierre boit et ø fume), ainsi que des règles pour la détection des pronoms de première et deuxième personnes dans les citations (Paul a dit : “Je suis étudiant.”). L'article présente l'élaboration des ressources et règles utilisées pour la gestion de ces phénomènes spécifiques, avant de décrire le système dans son ensemble, et notamment les différentes phases de la résolution de la coréférence.
Annotating with SACR and exploiting annotations (CRViewer, Excel)
Oberle B.
Workshop à Cardiff University (invité par Lise Fontaine), Grande-Bretagne, 10 mai 2019
Chaînes de référence et structuration textuelle: quelques indicateurs...
Oberle B.
Journée d'études “Mesures statistiques et approches quantitatives”, LiLPa (Linguistique, Langues, Parole), UR 1339, Université de Strasbourg, 14 juin 2019, Strasbourg, France
English:What is the relation between coreference chains and textual structure? Can we predict thematic break from coreference chains. We demonstrate that looking at coreference is helpful to find thematic sections at a level between the paragraph and the chapter.
SACR: A Drag-and-Drop Based Tool for Coreference Annotation
Oberle B.
Proceedings of the 11th Edition of the Language Resources and Evaluation Conference (LREC), Miyazaki, Japan (2018)
This paper introduces SACR, an easy-to-use coreference chain annotation tool, which is used to annotate large corpora for Natural Language Processing applications. Coreference annotation is usually considered as costly both in terms of time and human resources. So, in order to find the easiest annotation strategy, we will first of all compare several annotation schemes implemented in existing tools. Since interface ergonomics is also an important part of our research, we then focus on identifying the most helpful features to reduce the strain for annotators. In the next section of the paper, we present SACR in details. This tool has been developed specifically for coreference annotation, and its intuitive user interface has been designed to facilitate and speed up the annotation process, making SACR equally suited for students, occasional and non-technical users. In order to create coreference chains, elements are selected by clicking on the corresponding tokens. Coreference relations are then created by drag-and-dropping expressions one over the other. Finally, color frames around marked expressions help the user to visualize both marked expressions and their relations. SACR is open source, distributed under the terms of the Mozilla Public License, version 2.0, and freely available online.
Les chaînes de référence dans les textes encyclopédiques du 12e au 21e siècle: étude longitudinale
Oberle B., Schnedecker C., Baumer E., Capin D., Glikman J., Guo C., Revol T., Todirascu A. & Tushkova J.
English: (Co-referential chains in encyclopedic texts from the 12th to the 21st century : a longitudinal study) This innovative study aims at identifying diachronic changes in the composition of co-referential chains over a very large period of time. It covers texts of an encyclopedic nature, featuring referents of the same type (animals), and dating from the 12th to the 21st century, in order to highlight the impact of two factors that are supposed to influence co-referential chains : discourse genre and time of writing. The study is based on a corpus of 13,623 words (4,418 referential expressions), for which all referents have been annotated.
Français: Cette étude originale vise à dégager l’évolution diachronique dans la composition des chaînes de référence sur une diachronie très large, couvrant des textes à caractère encyclopédique allant du 12e au 21e siècle et portant sur des référents de même type (des animaux). L’objectif est de faire ressortir l’impact des facteurs censés influencer les chaînes de référence: leur genre discursif d’occurrence et l’époque de leur composition. L’étude s’appuie sur un corpus annoté en références et coréférences de 13 623 mots (4 418 expressions référentielles), dont tous les référents ont été annotés.
Les noms d'humains en -phobe
Oberle B.
In Schnedecker C. et Mihatsch W., Nouvelles approches en sémantique lexicale: les noms d'humains (théorie, méthodologie, classification). De Gruyter (2018)
Constructions néoclassiques récentes, formées avec un élément d'origine grecque et d'un élément d'origine soit classique soit française, les NH-phobe se caractérisent d'abord par une grande productivité, avec de nombreuses créations, que les éléments soient « triviaux » (araignée-phobe) ou, au contraire, très « recherchés » (blemmophobe).
Face aux catégorisations sémantiques données par les dictionnaires, qui répartissent les NH-phobe entre peur, haine et aversion, il convient de faire preuve de prudence: non seulement le sens de ‑phobe ne semble pas stabilisé (anglophobe pourra aussi bien désigner quelqu'un qui hait les Anglais, que, dans certains contextes, quelqu'un qui ne parle tout simplement pas anglais), mais surtout les deux principaux sens (peur et haine) semblent cohabiter dans l'esprit des locuteurs, qui se sentent parfois obligés de préciser le sens qu'ils donnent à ‑phobe, quand ils ne jouent pas sur la polysémie de l'élément pour masquer leur haine.
L'analyse comparative des quatre discours représentés dans notre corpus a mis en évidence certaines contraintes pesant sur l'usage des NH-phobe. Ceux-ci sont ainsi beaucoup plus fréquents dans la langue informelle des sous-titres, alors que les documents formels et administratifs privilégient l'usage de l'adjectif et n'en contiennent presque aucun. La distribution lexicale varie également selon le discours: les films et les séries s'intéressent surtout aux homophobes, les députés européens aux xénophobes et la presse, les forums et les blogs aux deux à la fois.
D'autres phénomènes ont été révélés par une analyse plus fine des propriétés syntaxiques et sémantiques des NH-phobe; par exemple l'opposition entre un usage générique, pluriel, au genre indéterminé dans les débats parlementaires européens, et un usage plus spécifique, singulier, avec plus d'expansions, dans les dialogues des films et séries; mais aussi la peur (claustrophobe, arachnophobe) plus souvent associée aux femmes qu'aux hommes; ou encore l'usage fréquent des NH-phobe comme insultes.
Si nos remarques ont surtout été descriptives, nous avons essayé d'offrir une vue d'ensemble de ces NH, non seulement en tant que constructions (notre étude qualitative), mais aussi en tant que composés qui s'inscrivent dans des usages spécifiques (notre étude quantitative). Plusieurs des phénomènes que nous avons mis en avant mériteraient une analyse plus approfondie, notamment celui de la polysémie de l'élément ‑phobe et celui de la corrélation entre certains phénomènes syntaxiques ou sémantiques et le type de discours. De plus, certaines de ces propriétés, en faisant l'objet d'une étude plus poussée, pourraient servir de base à une sous-catégorisation des NH-phobe, ce qui permettrait, à terme, de les intégrer dans des classifications plus larges des noms d'humains, comme celles de Gross (2011), El Chérif (2011) ou Schnedecker (2015). Enfin, il conviendrait d'envisager l'étude contrastive des NH-phobe et d'autres composés néoclassiques nominaux, tels que ceux formés, par exemple, à partir de ‑phile, ‑mane ou ‑graphe.