Bruno Oberle, linguiste informaticien et développeur

Développeur Python & Web avec 5 ans d'expérience professionnelle, je travaille depuis 2 ans dans le domaine de la cybersécurité. J'ai fait 3 ans de recherche en machine learning appliqué au traitement de données textuelles (TAL/NLP). Je développe des applications SaaS en Python et JavaScript avec Flask et Django, mais j'utilise aussi Java, C/C++, Go et Perl.

N'hésitez pas à me contacter à .

Voir mon CV et mes compétences...

Bruno Oberle, linguiste informaticien et développeur

Projets

Traitement Automatique des Langues (TAL), programmation, linguistique, mais aussi grec ancien, électronique, photographie... Voici une sélection de mes projets.

voir tous mes projets

New website! Random Items Collection: randomitems.io

Des données pour remplir vos prototypes ou tester vos bases de données? Trouvez des données extraites aléatoirement de Wikipédia.

De simples listes de noms ou d'emails à des tableaux ou des structures plus complexes avec boucles et groupements (group by). Avec des textes complets en html. Et des images.

Disponible sur randomitems.io.

en savoir plus

Outil d'annotation de la coréférence (SACR)

Pour annoter des mentions et des relations de coréférence avec un simple glisser-déposé (drag-and-drop). Annotation de propriéteś pur chaque mention: partie du discours (noun, pronom, etc.), genre, nombre, fonction, etc.

en savoir plus github l'utiliser !

Base de données et corpus de coréférence pour l'anglais et le français (corefdb)

Pour étudier les phénomènes de coréférence avec une base de données relationnelle contenant des tables pour coréférence (mentions, chaînes, relaations) et pour les structures textuelles (tokens, phrases, paragraphes, textes). Avec des annotations linguistiques (parties du discours, entités nommées, etc.).

Version enrichie d'annotation linguistiques du corpus Democrat pour le français.

en savoir plus github

Système neuronal de résolution automatique de la coréférence pour le français (cofr)

Pour détecter automatiquement les mentions (y compris des singletons) et les relations de coréférence dans un texte. Le système est une adaptation pour le français d'un système originellement conçu pour l'anglais.

en savoir plus github

Fiches de linguistique et de grammaire grecque (grec ancien)

Pour apprendre le grec ancien avec 150 fiches de linguistique et de grammaire (419 pages): morphologie (déclinaison, conjugaison), phonétique, syntaxe, usage des temps et modes...

en savoir plus

New! Coreference exploration and analysis website

Un site web pour découvrir la coréférence en français (corpus Democrat et Ancor) et calculer des statistiques.

Annotez, chargez et analysez vos propres données.

Bientôt en ligne!

Les chaînes de coréférence dans les articles scientifiques (mémoire de master)

Une étude en linguistique de corpus des chaînes de coréférence dans les articles de recherche de format IMRaD: discussion des notions d'expression référentielle et de coréférence, constitution du corpus (webscrapping), conception d'un guide d'annotation, annotation des textes, analyse des annotations.

C'est l'un de mes deux mémoires de master (en “Sciences du Langage”).

en savoir plus

Visualisation sous forme d'arbres de la sortie d'analyseurs syntaxiques (dependency2tree)

Pour représenter les sorties CoNLL d'analyseurs syntaxiques tels que StanfordNLP (pour l'anglais) ou Talismane (pour le français) sous forme d'arbres compilés avec Latex ou Graphviz.

en savoir plus github

Outil d'analyse de la coréférence (CRViewer)

Pour calculer des statistiques de chaînes de coréférence, avec diagrammes circulaires et diagrammes à barres.

en savoir plus gitlab

Application interactive de géométrie dans l'espace

Pour dessiner des figures géométriques dans l'espace: solides, droites, vecteurs, plans, fonctions...

en savoir plus github

Regular Expression For Classe Instances (refci)

Pour chercher des patterns dans une liste d'objets, comme des tokens. Par exemple:

[pos="determiner"][pos="noun" lemma="cat"]

pour trouver un déterminant suivi d'un nom avec le lemme cat. Ce module fonctionne pour des objets de toutes disciplines, par seulement en linguistique!

en savoir plus github

Publications

Au total, 9 articles publiés en peer-review et 8 communications dans des workshops et journées d'études. Parmi les articles et communications, 6 sont en anglais, les autres en français. Voici une sélection de mes publications.

voir toutes les publications

French coreference for spoken and written language

Wilkens R., Oberle B., Landragin F. & Todirascu A.

Proceedings of the 12th Edition of the Language Resources and Evaluation Conference (LREC), Marseille, France (2020)

article

Types de chaînes de référence dans les articles de recherche de format IMRaD

Oberle B.

Discours: Revue de linguistique, psycholinguistique et informatique. A journal of linguistics, psycholinguistics and computational linguistics, 25 (2020)

article

Détection automatique de chaînes de coréférence pour le français écrit: règles et ressources adaptées au repérage de phénomènes linguistiques spécifiques

Oberle B.

Actes des Rencontres des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (TALN-RECITAL), Association française pour l'Intelligence Artificielle, Toulouse (2019)

article poster

Annotating with SACR and exploiting annotations (CRViewer, Excel)

Oberle B.

Workshop à Cardiff University (invité par Lise Fontaine), Grande-Bretagne, 10 mai 2019

slides

Chaînes de référence et structuration textuelle: quelques indicateurs...

Oberle B.

Journée d'études “Mesures statistiques et approches quantitatives”, LiLPa (Linguistique, Langues, Parole), UR 1339, Université de Strasbourg, 14 juin 2019, Strasbourg, France

slides

SACR: A Drag-and-Drop Based Tool for Coreference Annotation

Oberle B.

Proceedings of the 11th Edition of the Language Resources and Evaluation Conference (LREC), Miyazaki, Japan (2018)

article poster

Les chaînes de référence dans les textes encyclopédiques du 12e au 21e siècle: étude longitudinale

Oberle B., Schnedecker C., Baumer E., Capin D., Glikman J., Guo C., Revol T., Todirascu A. & Tushkova J.

Travaux de Linguistique, 77 (2018)

article

Les noms d'humains en -phobe

Oberle B.

In Schnedecker C. et Mihatsch W., Nouvelles approches en sémantique lexicale: les noms d'humains (théorie, méthodologie, classification). De Gruyter (2018)

article

Photographies

Argentique en noir-et-blanc et couleur. Découvrez mon labo photo ici. Voici une selection de mes photographies.

voir toutes les photos

Corse, 2003

Corse, 2003

Colmar (théâtre), 2005

Paris (Jardin du Luxembourg), 2005

Ribeauvillé, Alsace, 2003

Corse, 2003

Turckheim, Alsace, 2005 (argentique couleur)

Bretagne, 2005

Corse, 2003

Nîmes, 2005

Avignon, Palais des Papes, 2005

Saintes-Maries-de-la-Mer, 2005

Douarnenez, Bretagne, 2005

Bretagne, 2005

Chess game, 2005

Corse, 2003