Catégorie : IA
-
vEADette: une ébauche d’application d’audit et d’indexation des instruments de recherche pour les archivistes
vEADette est une ébauche d’application d’indexation automatique et d’audit des instruments de recherche en XML/EAD. Automatique car l’analyse et l’extraction sémantique emploie un LLM pour l’analyse de corpus d’instruments de recherche; et contrôlée car la génération des données repose sur l’emploi du vocabulaire fixé par les thésaurus réglementaires et les notices d’autorité permettant à la…
-
La topologie appliquée aux données documentaires et patrimoniales : petit topo récréatif sur l’évaluation de la sortie structurée via LLMs
Dans le fond, quand on compare une vérité terrain et des données générées, il s’agit de comparer leurs formes respectives. Quand la vérité terrain représente une configuration réputée parfaite, une référence utile pour établir et quantifier des différences, les données générées, elles, en sont une reprise bruitée, érodée — chaîne de traitement oblige. A chaque…
-
Déblais et remblais textuels. Sur l’évaluation de la sortie structurée des LLMs pour des tâches d’indexation documentaire avec le transport optimal (2/2)
Mesurer pour savoir, savoir ce qu’il faut mesurer (et mesurer ce que l’on tient à savoir) Il est question ici de continuer sur les aspects techniques de ce qui a été amorcé la dernière fois autour de cette problématique : comment justifier en SHS un usage scientifique des données générées par un LLM ? Autrement dit, quoi…
-
Déblais et remblais textuels. Sur l’évaluation de la sortie structurée des LLMs pour des tâches d’indexation documentaire avec le transport optimal (1/2?)
On peut utiliser des modèles génératifs pour indexer — et donc extraire a posteriori — le contenu de textes en les interrogeant et en les contraignant avec de la sortie structurée ou de la génération structurée. Mais il peut y avoir du sable dans l’engrenage : les LLMs peuvent se tromper par exemple en oubliant d’indexer…
-
Tutoriel : prise en main de Kraken, épisode 2 (anatomie d’une ligne de commande).
J’ai conclu la dernière vidéo avec une commande qui a permis d’obtenir, dans un fichier txt, la transcription d’une image. C’était l’occasion de vérifier à la fois que kraken et nos modèles étaient bien installés et utilisables. Dans cette deuxième vidéo, nous allons voir l’anatomie d’une ligne de commande kraken et, pour ce faire, connaître…
-
Tutoriel : prise en main de Kraken, épisode 1
Voici la première vidéo d’une petite série sur la prise en main de Kraken, utilisé pour des projets d’OCR/HTRisation (récupération de l’information textuelle et de la mise en page) de documents numérisés. Kraken est un outil clé en main pour « OCRiser » (ou « HTRiser ») des documents; il peut s’utiliser via un terminal ou via Python. Il…