Catégorie : Données
-
vEADette: une ébauche d’application d’audit et d’indexation des instruments de recherche pour les archivistes
vEADette est une ébauche d’application d’indexation automatique et d’audit des instruments de recherche en XML/EAD. Automatique car l’analyse et l’extraction sémantique emploie un LLM pour l’analyse de corpus d’instruments de recherche; et contrôlée car la génération des données repose sur l’emploi du vocabulaire fixé par les thésaurus réglementaires et les notices d’autorité permettant à la…
-
La topologie appliquée aux données documentaires et patrimoniales : petit topo récréatif sur l’évaluation de la sortie structurée via LLMs
Dans le fond, quand on compare une vérité terrain et des données générées, il s’agit de comparer leurs formes respectives. Quand la vérité terrain représente une configuration réputée parfaite, une référence utile pour établir et quantifier des différences, les données générées, elles, en sont une reprise bruitée, érodée — chaîne de traitement oblige. A chaque…
-
Déblais et remblais textuels. Sur l’évaluation de la sortie structurée des LLMs pour des tâches d’indexation documentaire avec le transport optimal (2/2)
Mesurer pour savoir, savoir ce qu’il faut mesurer (et mesurer ce que l’on tient à savoir) Il est question ici de continuer sur les aspects techniques de ce qui a été amorcé la dernière fois autour de cette problématique : comment justifier en SHS un usage scientifique des données générées par un LLM ? Autrement dit, quoi…
-
Déblais et remblais textuels. Sur l’évaluation de la sortie structurée des LLMs pour des tâches d’indexation documentaire avec le transport optimal (1/2?)
On peut utiliser des modèles génératifs pour indexer — et donc extraire a posteriori — le contenu de textes en les interrogeant et en les contraignant avec de la sortie structurée ou de la génération structurée. Mais il peut y avoir du sable dans l’engrenage : les LLMs peuvent se tromper par exemple en oubliant d’indexer…
-
Desiderata, désirées data
Desiderata, désirées data. Voici un jeu de mots qui exprime la ligne éditoriale de ce blog sur les aspects techniques et patrimoniaux des archives — et en particulier des données. En guise d’ouverture, je propose donc d’étayer quelques problématiques insignes soulevées par cette quasi-contrepèterie (quasi, car la grivoiserie lui fait défaut). Les « désidératas » ce sont…