Quelques-uns de mes projets: Beaucoup concernent le Traitement Automatique des Langues (TAL), l'informatique et la linguistique, d'autres traitent de grec ancien, d'électronique, de photographie ou encore de cinéma. Certains sont récents, d'autres le sont moins. Cliquez sur le bouton “En savoir plus” pour afficher la page dédiée au projet.
Des données pour remplir vos prototypes ou tester vos bases de données? Trouvez des données extraites aléatoirement de Wikipédia.
De simples listes de noms ou d'emails à des tableaux ou des structures plus complexes avec boucles et groupements (group by). Avec des textes complets en html. Et des images.
Disponible sur randomitems.io.
Pour annoter des mentions et des relations de coréférence avec un simple glisser-déposé (drag-and-drop). Annotation de propriétés pur chaque mention: partie du discours (noun, pronom, etc.), genre, nombre, fonction, etc.
corefdb
)Pour étudier les phénomènes de coréférence avec une base de données relationnelle contenant des tables pour coréférence (mentions, chaînes, relaations) et pour les structures textuelles (tokens, phrases, paragraphes, textes). Avec des annotations linguistiques (parties du discours, entités nommées, etc.).
Version enrichie d'annotation linguistiques du corpus Democrat pour le français.
cofr
)Pour détecter automatiquement les mentions (y compris des singletons) et les relations de coréférence dans un texte. Le système est une adaptation pour le français d'un système originellement conçu pour l'anglais.
Pour calculer des statistiques de chaînes de coréférence, avec diagrammes circulaires et diagrammes à barres.
Pour apprendre le grec ancien avec 150 fiches de linguistique et de grammaire (419 pages): morphologie (déclinaison, conjugaison), phonétique, syntaxe, usage des temps et modes...
Un site web pour découvrir la coréférence en français (corpus Democrat et Ancor) et calculer des statistiques.
Annotez, chargez et analysez vos propres données.
Bientôt en ligne!
Une étude en linguistique de corpus des chaînes de coréférence dans les articles de recherche de format IMRaD: discussion des notions d'expression référentielle et de coréférence, constitution du corpus (webscrapping), conception d'un guide d'annotation, annotation des textes, analyse des annotations.
C'est l'un de mes deux mémoires de master (en “Sciences du Langage”).
Différentes façons de visualiser les relations de coréférence entre les expressions linguistiques d'un texte.
dependency2tree
)Pour représenter les sorties CoNLL d'analyseurs syntaxiques tels que StanfordNLP (pour l'anglais) ou Talismane (pour le français) sous forme d'arbres compilés avec Latex ou Graphviz.
Pour dessiner des figures géométriques dans l'espace: solides, droites, vecteurs, plans, fonctions...
refci
)Pour chercher des patterns dans une liste d'objets, comme des tokens. Par exemple:
[pos="determiner"][pos="noun" lemma="cat"]
pour trouver un déterminant suivi d'un nom avec le lemme cat. Ce module fonctionne pour des objets de toutes disciplines, par seulement en linguistique!
Pour détecter automatiquement la coréférence avec un système qui utilise des règles linguistiques définies manuellement. J'ai aussi développé un dictionnaire d'entités nommmées et de nom propres contenant des informations utile pour la résolution de la coréférence, et un dictionnaire d'hyperonymes.
C'est l'un de mes deux mémoires de master (en “Linguistique, Informatique, Traduction”).
Pour faire des cartes topographiques en couleurs à partir des données brutes de la NASA et d l'USGS.
Une police pour le grec ancien qui ressemble à celle du célèbre éditeur “Les Belles Lettres”, créée avec FontForge.
mktimeline
)Pour créer des frises chronologiques à partir d'une liste de dates et d'événements.
standoff2inline
)Pour intégrer des annotations “déportées” (= standoff, c'est-à-dire indexées par la position d'un caractère ou d'un token) dans un texte (= inline, comme avec XML). Par exemple, dans la phrase: Le chat a bu du lait., les 3e et 4e mots représentent un verbe (dire “3e et 4e”, c'est ça l'annotation déportée), de sorte que l'annotation intégrée serait:
Le chat <verb>a but</verb> du lait.
Pour avoir une entrée bibtex bien formatté à partir de champs à remplir. Permet d'éditer facilement les entrées de Google Scholar.
Pour enregistrer l'écran et sa voix avev Linux. Utile pour faire des tutoriels ou des cours en ligne sous Linux.
Quelques images de synthèse faites avec Blender il y a quelques temps.
Pour apprendre à lire facilement les valeurs nominales et les tolérances des résistances électroniques à partir de leurs bagues de couleur.
Comment j'ai réalisé une alimentation de laboratoire (2x 1.2V à 20V, 333mA).
Pour créer de façon semi-automatique des listes de vocabulaire à partir de textes bruts dans le cadre de l'apprentissage d'une langue étrangère.
Pour préparer des cartes mémoire (flashcards) prêtes à imprimer avec LaTeX.
corefconversion
)Pour convertir entre différents formats utilisé pour l'annotation de la coréférence, comme .jsonlines
, .conll
, texte...
hgt2pnm
)Pour voir en image les modèle d'élévation bruts de l'USGS et de la NASA.
hexagame
)Pour apprendre les nombres hexadécimaux et leur patterns binaires correspondants. Un projet d'école en assembleur.
drawframe
)Pour afficher un cadre de couleur qui reste sur toutes les autres fenêtre, sous Linux. Utile pour enregistrer des screencasts.
.jsonlines
en TEI-URS (jsonlines2tei
)Pour importer des documents .jsonlines
dans le logiciel d'annotation et d'analyse de données textuelles TXM.
Pour chronométrer des sessions de 25 minutes (ou autres) avec un simple script Python qui inverse les couleurs de l'écran à la fin de la session de travail.