Bruno Oberle - Scientific publications

I have published on Natural Language Processing, including on Artificial Intelligence and the fine-tuning of LLM, and on French linguistics.

French coreference for spoken and written language flag

Wilkens R., Oberle B., Landragin F. & Todirascu A.

Proceedings of the 12th Edition of the Language Resources and Evaluation Conference (LREC), Marseille, France (2020)

paper code on github

Coreference-Based Text Simplification flag

Wilkens R., Oberle B. & Todirascu A.

Proceedings of the READI Workshop (Tools and Resources to Empower People with READing DIfficulties), Marseille, France (2020)

paper

Types de chaînes de référence dans les articles de recherche de format IMRaD flag

Oberle B.

Discours: A journal of linguistics, psycholinguistics and computational linguistics, 25 (2020)

paper

English: Many research articles in experimental sciences present a standardized form known as the IMRaD format, an acronym for “Introduction, Methods, Results and Discussion”. Each of these sections has a specific purpose (presenting the framework, describing the methodology, reporting the results and then discussing them), but also specific linguistic features. Our goal is to study coreference chains (all the expressions of a text that refer to the same extra-linguistic entity) in a corpus of French IMRaD articles (5 texts, 32 539 words). We show that different types of chains have specific features and that they cannot be study without distinction. We first categorize chains by the type of their referent and analyze in particular three of these types: author(s), abstract concepts and groups. We then define types of chains by features such as their prominence, their extend in the text, the distance between their elements, etc. This dual typology of coreference chains allows us to describe the main types of chains, but also to give a fine-grained analysis of the textual progression in IMRaD articles, especially how and why some referents are present in several sections while other are limited in one section only.

French: La plupart des articles de recherche en sciences expérimentales présentent un format standardisé, dit « IMRaD » (Introduction, Méthodes, Résultats et Discussion). Chacune de ces parties remplit une fonction spécifique (présenter le cadre de la recherche, décrire les méthodes, rapporter les observations, et les discuter) qui est marquée par une variation de certains phénomènes linguistiques. Notre recherche a pour objectif d'étudier le fonctionnement des chaînes de référence (l'ensemble des expressions linguistiques qui renvoient à la même entité extralinguistique) dans un corpus d'articles IMRaD écrits en français (5 textes, 32 539 mots). Notre analyse fait ressortir l'hétérogénéité des chaînes, tant par le type de leur référent que par la répartition de leurs occurrences dans le texte. Nous montrons que des chaînes de différents types de référents (notamment l'auteur de l'article, les référents abstraits et les groupes d'individus) n'ont pas les mêmes propriétés et ne peuvent pas être décrites de la même façon. De même, nous distinguons différents types de chaînes en fonction de caractéristiques telles que leur saillance, leur étendue dans le texte, la distance entre leurs éléments, etc. Cette double typologie des chaînes de référence nous permet à la fois de modéliser le comportement des principaux types de chaînes mais aussi de proposer une analyse fine de la progression textuelle dans les articles de format IMRaD, et d'expliquer comment certains référents sont présents tout au long du texte, alors que d'autres n'apparaissent que dans certaines sections.

Détection automatique de chaînes de coréférence pour le français écrit: règles et ressources adaptées au repérage de phénomènes linguistiques spécifiques flag

Oberle B.

Actes des Rencontres des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (TALN-RECITAL), Association française pour l'Intelligence Artificielle, Toulouse (2019)

paper poster

Identification automatique de chaînes de coréférences: vers une analyse des erreurs pour mieux cibler l'apprentissage flag

Landragin F. & Oberle B.

Workshop AFIA-ATALA “Traitement Automatique des Langues et Intelligence Artificielle”, Onzième édition de la plate-forme Intelligence Artificielle (PFIA), Nancy, France (2018)

paper

Les chaînes de référence dans les textes encyclopédiques du 12e au 21e siècle: étude longitudinale flag

Oberle B., Schnedecker C., Baumer E., Capin D., Glikman J., Guo C., Revol T., Todirascu A. & Tushkova J.

Travaux de Linguistique, 77 (2018)

publisher website

SACR: A Drag-and-Drop Based Tool for Coreference Annotation flag

Oberle B.

Proceedings of the 11th Edition of the Language Resources and Evaluation Conference (LREC), Miyazaki, Japan (2018)

paper poster code on github use it online

Les noms d'humains en -phobe flag

Oberle B.

In Schnedecker C. et Mihatsch W., Nouvelles approches en sémantique lexicale: les noms d'humains (théorie, méthodologie, classification). De Gruyter (2018)

paper (publisher website) draft

Constructions néoclassiques récentes, formées avec un élément d'origine grecque et d'un élément d'origine soit classique soit française, les NH-phobe se caractérisent d'abord par une grande productivité, avec de nombreuses créations, que les éléments soient « triviaux » (araignée-phobe) ou, au contraire, très « recherchés » (blemmophobe).

Face aux catégorisations sémantiques données par les dictionnaires, qui répartissent les NH-phobe entre peur, haine et aversion, il convient de faire preuve de prudence: non seulement le sens de ‑phobe ne semble pas stabilisé (anglophobe pourra aussi bien désigner quelqu'un qui hait les Anglais, que, dans certains contextes, quelqu'un qui ne parle tout simplement pas anglais), mais surtout les deux principaux sens (peur et haine) semblent cohabiter dans l'esprit des locuteurs, qui se sentent parfois obligés de préciser le sens qu'ils donnent à ‑phobe, quand ils ne jouent pas sur la polysémie de l'élément pour masquer leur haine.

L'analyse comparative des quatre discours représentés dans notre corpus a mis en évidence certaines contraintes pesant sur l'usage des NH-phobe. Ceux-ci sont ainsi beaucoup plus fréquents dans la langue informelle des sous-titres, alors que les documents formels et administratifs privilégient l'usage de l'adjectif et n'en contiennent presque aucun. La distribution lexicale varie également selon le discours: les films et les séries s'intéressent surtout aux homophobes, les députés européens aux xénophobes et la presse, les forums et les blogs aux deux à la fois.

D'autres phénomènes ont été révélés par une analyse plus fine des propriétés syntaxiques et sémantiques des NH-phobe; par exemple l'opposition entre un usage générique, pluriel, au genre indéterminé dans les débats parlementaires européens, et un usage plus spécifique, singulier, avec plus d'expansions, dans les dialogues des films et séries; mais aussi la peur (claustrophobe, arachnophobe) plus souvent associée aux femmes qu'aux hommes; ou encore l'usage fréquent des NH-phobe comme insultes.

Si nos remarques ont surtout été descriptives, nous avons essayé d'offrir une vue d'ensemble de ces NH, non seulement en tant que constructions (notre étude qualitative), mais aussi en tant que composés qui s'inscrivent dans des usages spécifiques (notre étude quantitative). Plusieurs des phénomènes que nous avons mis en avant mériteraient une analyse plus approfondie, notamment celui de la polysémie de l'élément ‑phobe et celui de la corrélation entre certains phénomènes syntaxiques ou sémantiques et le type de discours. De plus, certaines de ces propriétés, en faisant l'objet d'une étude plus poussée, pourraient servir de base à une sous-catégorisation des NH-phobe, ce qui permettrait, à terme, de les intégrer dans des classifications plus larges des noms d'humains, comme celles de Gross (2011), El Chérif (2011) ou Schnedecker (2015). Enfin, il conviendrait d'envisager l'étude contrastive des NH-phobe et d'autres composés néoclassiques nominaux, tels que ceux formés, par exemple, à partir de ‑phile, ‑mane ou ‑graphe.

Research Articles From Plos Biology: A Textual Data Analysis flag

Oberle B.

In Wang X. 篇章分析——对汉语、法语指称链条分布规律的实证研究及其标注 (Analyse textuelle: études des chaînes référentielles en chinois et en français; Textual Analysis: Coreference Chains in Chinese and French). Beijing Language and Culture University Press (2018)

paper

Chaînes de référence et structuration textuelle: quelques indicateurs... flag

Oberle B.

Workshop “Mesures statistiques et approches quantitatives”, LiLPa (Linguistique, Langues, Parole), UR 1339, Université de Strasbourg, 14 juin 2019, Strasbourg, France

slides

Annotating with SACR and exploiting annotations (CRViewer, Excel) flag

Oberle B.

Workshop at Cardiff University (invited by Lise Fontaine), United Kingdom, May the 10th, 2019

slides

L'apport de l'analyse des erreurs pour la détection automatique de la coréférence flag

Oberle B.

Seminar organized by the LiLPa (Linguistique, Langues, Parole) laboratory (UR1339), June the 1st, 2018, Strasbourg

ODACR: un Outil de Détection Automatique des Chaînes de Référence à base de règles linguistiques flag

Oberle B.

Meeting of the Democrat ANR project Democrat (from the French National Agency), March the 13th, 2018, Paris

Regard sur l'annotation de Democrat flag

Le Mené M. & Oberle B.

Meeting of the Democrat ANR project Democrat (from the French National Agency), March the 13th, 2018, Paris

Étude des chaînes de référence dans les articles de recherche de format IMRaD flag

Oberle B.

Workshop “Référence, coréférence et structure textuelle”, November the 27th, 2017, Lyon

slides

La plupart des articles de recherche en sciences expérimentales présentent un format standardisé, dit « IMRaD » pour Introduction, Méthodes, Résultats et Discussion. Chacune de ces parties remplit une fonction spécifique (présenter le cadre de la recherche, décrire la méthodologie de l'expérimentation, rapporter les observations, puis les discuter et les généraliser) qui est marquée par une variation de certains phénomènes linguistiques. C'est dans ce cadre que s'inscrit notre recherche, dont l'objectif est d'étudier le fonctionnement des chaînes de référence, définies comme l'ensemble des expressions linguistiques (les « maillons » de la chaîne) qui renvoient à la même entité extralinguistique, dans les articles de format IMRaD, et plus spécifiquement dans chacune de leurs sections.

Nous avons manuellement annoté un corpus de cinq articles totalisant 32 539 mots (293 chaînes et 2 870 maillons).

Une analyse préliminaire a fait ressortir l'hétérogénéité des chaînes de référence, tant par le type de leur référent que par la répartition de leurs occurrences dans le texte. Les référents abstraits (comme le burnout ou l'interdisciplinarité), les groupes (les étudiants), les entités de « type massif » (l'eau, l'azote), les entités définies (la Grotte des Treilles), etc. n'ont pas les mêmes caractéristiques et ne peuvent pas être décrits de la même façon. De même, il est difficile de ne pas séparer une chaîne saillante qui s'étend sur l'ensemble du texte d'une chaîne « éphémère » qui ne dépasse pas les limites d'une phrase.

Nous avons donc regroupé les référents en différentes classes (auteur, entités abstraites, entités concrètes et définies, noms massifs, ensembles, etc.) et les chaînes en différents groupes représentatifs de la répartition des maillons dans le texte (chaînes qui s'étendent sur l'ensemble du texte, chaînes concentrées dans un paragraphe, chaînes récurrentes, etc.).

Cette double typologie nous permet à la fois de modéliser le comportement des principaux types de chaînes mais aussi de proposer une analyse fine de la progression textuelle dans les articles de format IMRaD, et d'expliquer comment certains référents sont présents tout au long du texte, alors que d'autres n'apparaissent que dans certaines sections.

Chaînes de référence et structuration des textes: Le cas des textes encyclopédiques de l'ancien français à nos jours. Etude pilote. flag

Oberle B., Schnedecker C., Baumer E., Capin D., Glikman J., Guo C., Revol T., Todirascu A. & Tushkova J.

Workshop “Référence, coréférence et structure textuelle”, November the 27th, 2017, Lyon

Ce travail s'inscrit dans le cadre du projet ANR « Democrat », dont l'un des objectifs linguistiques consiste à dégager l'évolution diachronique dans la composition des chaînes de référence. Dans ce contexte, la période historique considérée correspond à un empan très large, voire maximal, puisqu'elle englobe des textes allant du 12ème jusqu'au 21ème siècle, ce qui constitue en soi une approche inédite. Le second objectif de cette étude est de contribuer à l'évaluation de l'impact des genres discursifs sur les caractéristiques des chaînes de référence. Le choix du corpus s'est donc porté sur des textes relevant du même genre, à savoir les textes « encyclopédiques », d'une part parce qu'il existe encore relativement peu d'études sur les phénomènes référentiels et les chaînes de référence dans les textes « non-narratifs », et d'autre part parce que nous souhaitions voir si la structure particulière de ces textes avait un impact sur la composition des chaînes. Enfin, afin de neutraliser le paramètre des entités textuellement dominantes ou saillantes (la configuration des chaînes pouvant varier selon que le texte a pour topique une entité « concrète » ou « abstraite »), nous avons sélectionné des textes évoquant des animaux (en l'occurrence le renard, le loup, les abeilles et l'hirondelle), référents dont le « suivi » textuel est supposé peu problématique.

Notre présentation est structurée en quatre parties. Nous commencerons par présenter le corpus constitué (aspects « métatextuels », double caractérisation générique / linguistique), puis, dans un second temps, nous ferons un point sur la méthode utilisée pour annoter ce corpus (schéma d'annotation retenu, phases dans la méthode d'annotation). La troisième partie sera consacrée à la description des hypothèses formulées sur la composition des chaînes de référence (impact de l'évolution du système linguistique, effets de la saillance du référent, du découpage paragraphique, du type de séquences textuelles, instructions véhiculées par les procédures de segmentation textuelle). Enfin, dans la quatrième partie, nous présenterons les principaux résultats de notre étude, en insistant à la fois sur la dimension quantitative (points de stabilité et évolutions diachroniques, analyse quantitative globale et comparaison entre les chaînes « principales » et « secondaires », interaction des chaînes avec la structuration textuelle) et qualitative (effets du référent en tant qu'« entité », effets de l'évolution du système linguistique, effets de l'évolution du genre et des genres) de notre analyse.

En conclusion, nous montrerons que notre étude – bien qu'exploratoire, compte tenu de la taille limitée du corpus – permet d'esquisser des tendances à la fois sur l'évolution de la composition des chaînes de référence et sur l'histoire du genre encyclopédique. Nous rappellerons ainsi la nécessité d'une approche linguistique de l'évolution des genres, fondée sur la structure et les indices de cohésion textuelle – et non pas seulement sur les contenus, objectifs et conditions de production des textes.

Coreference annotation with SACR, a new drag-and-drop based tool flag

Oberle B.

Workshop Eclavit, 24 novembre 2018, Paris

poster

Publications

Peer-reviewed Papers

Workshops