-
Déblais et remblais textuels. Sur l’évaluation de la sortie structurée des LLMs pour des tâches d’indexation documentaire avec le transport optimal (1/2?)
On peut utiliser des modèles génératifs pour indexer — et donc extraire a posteriori — le contenu de textes en les interrogeant et en les contraignant avec de la sortie structurée ou de la génération structurée. Mais il peut y avoir du sable dans l’engrenage : les LLMs peuvent se tromper par exemple en oubliant d’indexer…
-
Un K à part. La série départementale des publications officielles, lois, ordonnances et arrêtés
Je travaille actuellement pour l’outil Mezanno à la Bibliothèque nationale de France (BnF) et l’EPITA, dédié à l’annotation automatique de documents sériels numérisés et à l’extraction de données structurées. Dans ce contexte, je travaille sur une méthodologie d’évaluation des données générées à partir du Journal Officiel (J.O.) disponible sur Gallica. Si je ferai prochainement un…
-
Tutoriel : prise en main de Kraken, épisode 2 (anatomie d’une ligne de commande).
J’ai conclu la dernière vidéo avec une commande qui a permis d’obtenir, dans un fichier txt, la transcription d’une image. C’était l’occasion de vérifier à la fois que kraken et nos modèles étaient bien installés et utilisables. Dans cette deuxième vidéo, nous allons voir l’anatomie d’une ligne de commande kraken et, pour ce faire, connaître…
-
Tutoriel : prise en main de Kraken, épisode 1
Voici la première vidéo d’une petite série sur la prise en main de Kraken, utilisé pour des projets d’OCR/HTRisation (récupération de l’information textuelle et de la mise en page) de documents numérisés. Kraken est un outil clé en main pour « OCRiser » (ou « HTRiser ») des documents; il peut s’utiliser via un terminal ou via Python. Il…
-
Le fonds Henri Brocard sur Calames
J’ai travaillé en tant qu’archiviste l’été dernier au classement du fonds Henri Brocard à l’Institut Henri Poincaré sous la direction du responsable du centre de documentation. Bref retour sur ce traitement qui aura duré quatre (petits) mois et qui m’aura permis d’expérimenter mes propres outils de génération semi-automatique d’un instrument de recherche en XML avec…
-
Python : variations récréatives autour de la somme de nombres entiers
Faire la somme des nombres consécutifs de 1 à $n$ ($1 + 2 + 3 + … + n$) est un exercice assez courant pour prendre en main un langage (ou bien s’initier à l’algorithmique). Dans cet article, je vais m’amuser avec Python à calculer cette somme — que l’on nomme parfois somme de Gauss…
-
Remarques autour « Des archives considérées comme une substance hallucinogène » (Michel Melot)
J’ai lu il y a quelques mois le livre de Michel Melot : Des archives considérées comme une substance hallucinogène. Dans cet article, je reviens sur cette lecture avec quelques remarques personnelles. Michel Melot rédige en 1986 Des archives considérées comme une substance hallucinogène. 40 ans après l’écriture de ce texte sur les enjeux de la…
-
XML/EAD : bénéficier de la validation DTD sans Oxygen XML Editor
La réalisation d’instrument de recherche en XML/EAD, et plus généralement l’utilisation de XML et d’une grammaire, exige de vérifier si son document est bien valide au regard d’une DTD. Dans le monde des archives, il est courant d’utiliser la DTD de 2002. L’encodage d’un instrument de recherche en XML se fait donc sous le contrôle…
-
Desiderata, désirées data
Desiderata, désirées data. Voici un jeu de mots qui exprime la ligne éditoriale de ce blog sur les aspects techniques et patrimoniaux des archives — et en particulier des données. En guise d’ouverture, je propose donc d’étayer quelques problématiques insignes soulevées par cette quasi-contrepèterie (quasi, car la grivoiserie lui fait défaut). Les « désidératas » ce sont…