désirées data – un blog sur les enjeux techniques et scientifiques des données patrimoniales

vEADette: une ébauche d’application d’audit et d’indexation des instruments de recherche pour les archivistes

vEADette est une ébauche d’application d’indexation automatique et d’audit des instruments de recherche en XML/EAD. Automatique car l’analyse et l’extraction sémantique emploie un LLM pour l’analyse de corpus d’instruments de recherche; et contrôlée car la génération des données repose sur l’emploi du vocabulaire fixé par les thésaurus réglementaires et les notices d’autorité permettant à la…

1 août 2025
La topologie appliquée aux données documentaires et patrimoniales : petit topo récréatif sur l’évaluation de la sortie structurée via LLMs

Dans le fond, quand on compare une vérité terrain et des données générées, il s’agit de comparer leurs formes respectives. Quand la vérité terrain représente une configuration réputée parfaite, une référence utile pour établir et quantifier des différences, les données générées, elles, en sont une reprise bruitée, érodée — chaîne de traitement oblige. A chaque…

26 juillet 2025
Déblais et remblais textuels. Sur l’évaluation de la sortie structurée des LLMs pour des tâches d’indexation documentaire avec le transport optimal (2/2)

Mesurer pour savoir, savoir ce qu’il faut mesurer (et mesurer ce que l’on tient à savoir) Il est question ici de continuer sur les aspects techniques de ce qui a été amorcé la dernière fois autour de cette problématique : comment justifier en SHS un usage scientifique des données générées par un LLM ? Autrement dit, quoi…

9 juillet 2025
Déblais et remblais textuels. Sur l’évaluation de la sortie structurée des LLMs pour des tâches d’indexation documentaire avec le transport optimal (1/2?)

On peut utiliser des modèles génératifs pour indexer — et donc extraire a posteriori — le contenu de textes en les interrogeant et en les contraignant avec de la sortie structurée ou de la génération structurée. Mais il peut y avoir du sable dans l’engrenage : les LLMs peuvent se tromper par exemple en oubliant d’indexer…

19 juin 2025
Un K à part. La série départementale des publications officielles, lois, ordonnances et arrêtés

Je travaille actuellement pour le projet Mezanno à la Bibliothèque nationale de France (BnF) et l’EPITA, dédié à l’annotation automatique de documents sériels numérisés et à l’extraction de données structurées. Dans ce contexte, je travaille sur une méthodologie d’évaluation des données générées à partir du Journal Officiel (J.O.) disponible sur Gallica. Si je ferai prochainement…

13 mai 2025
Tutoriel : prise en main de Kraken, épisode 2 (anatomie d’une ligne de commande).

J’ai conclu la dernière vidéo avec une commande qui a permis d’obtenir, dans un fichier txt, la transcription d’une image. C’était l’occasion de vérifier à la fois que kraken et nos modèles étaient bien installés et utilisables. Dans cette deuxième vidéo, nous allons voir l’anatomie d’une ligne de commande kraken et, pour ce faire, connaître…

9 février 2025
Tutoriel : prise en main de Kraken, épisode 1

Voici la première vidéo d’une petite série sur la prise en main de Kraken, utilisé pour des projets d’OCR/HTRisation (récupération de l’information textuelle et de la mise en page) de documents numérisés. Kraken est un outil clé en main pour « OCRiser » (ou « HTRiser ») des documents; il peut s’utiliser via un terminal ou via Python. Il…

6 février 2025
Le fonds Henri Brocard sur Calames

J’ai travaillé en tant qu’archiviste l’été dernier au classement du fonds Henri Brocard à l’Institut Henri Poincaré sous la direction du responsable du centre de documentation. Bref retour sur ce traitement qui aura duré quatre (petits) mois et qui m’aura permis d’expérimenter mes propres outils de génération semi-automatique d’un instrument de recherche en XML avec…

4 janvier 2025
Python : variations récréatives autour de la somme de nombres entiers

Faire la somme des nombres consécutifs de 1 à $n$ ($1 + 2 + 3 + … + n$) est un exercice assez courant pour prendre en main un langage (ou bien s’initier à l’algorithmique). Dans cet article, je vais m’amuser avec Python à calculer cette somme — que l’on nomme parfois somme de Gauss…

27 décembre 2024
Remarques autour « Des archives considérées comme une substance hallucinogène » (Michel Melot)

J’ai lu il y a quelques mois le livre de Michel Melot : Des archives considérées comme une substance hallucinogène. Dans cet article, je reviens sur cette lecture avec quelques remarques personnelles. Michel Melot rédige en 1986 Des archives considérées comme une substance hallucinogène. 40 ans après l’écriture de ce texte sur les enjeux de la…

18 octobre 2024
XML/EAD : bénéficier de la validation DTD sans Oxygen XML Editor

La réalisation d’instrument de recherche en XML/EAD, et plus généralement l’utilisation de XML et d’une grammaire, exige de vérifier si son document est bien valide au regard d’une DTD. Dans le monde des archives, il est courant d’utiliser la DTD de 2002. L’encodage d’un instrument de recherche en XML se fait donc sous le contrôle…

13 juillet 2024
Desiderata, désirées data

Desiderata, désirées data. Voici un jeu de mots qui exprime la ligne éditoriale de ce blog sur les aspects techniques et patrimoniaux des archives — et en particulier des données. En guise d’ouverture, je propose donc d’étayer quelques problématiques insignes soulevées par cette quasi-contrepèterie (quasi, car la grivoiserie lui fait défaut). Les « désidératas » ce sont…

24 juin 2024