• Tutoriel : prise en main de Kraken, épisode 2 (anatomie d’une ligne de commande).

    J’ai conclu la dernière vidéo avec une commande qui a permis d’obtenir, dans un fichier txt, la transcription d’une image. C’était l’occasion de vérifier à la fois que kraken et nos modèles étaient bien installés et utilisables. Dans cette deuxième vidéo, nous allons voir l’anatomie d’une ligne de commande kraken et, pour ce faire, connaître…

  • Tutoriel : prise en main de Kraken, épisode 1

    Voici la première vidéo d’une petite série sur la prise en main de Kraken, utilisé pour des projets d’OCR/HTRisation (récupération de l’information textuelle et de la mise en page) de documents numérisés. Kraken est un outil clé en main pour « OCRiser » (ou « HTRiser ») des documents; il peut s’utiliser via un terminal ou via Python. Il…

  • Le fonds Henri Brocard sur Calames

    J’ai travaillé en tant qu’archiviste l’été dernier au classement du fonds Henri Brocard à l’Institut Henri Poincaré sous la direction du responsable du centre de documentation. Bref retour sur ce traitement qui aura duré quatre (petits) mois et qui m’aura permis d’expérimenter mes propres outils de génération semi-automatique d’un instrument de recherche en XML avec…

  • Python : variations récréatives autour de la somme de nombres entiers

    Faire la somme des nombres consécutifs de 1 à $n$ ($1 + 2 + 3 + … + n$) est un exercice assez courant pour prendre en main un langage (ou bien s’initier à l’algorithmique). Dans cet article, je vais m’amuser avec Python à calculer cette somme — que l’on nomme parfois somme de Gauss…

  • Remarques autour « Des archives considérées comme une substance hallucinogène » (Michel Melot)

    J’ai lu il y a quelques mois le livre de Michel Melot : Des archives considérées comme une substance hallucinogène. Dans cet article, je reviens sur cette lecture avec quelques remarques personnelles. Michel Melot rédige en 1986 Des archives considérées comme une substance hallucinogène. 40 ans après l’écriture de ce texte sur les enjeux de…

  • XML/EAD : bénéficier de la validation DTD sans Oxygen XML Editor

    La réalisation d’instrument de recherche en XML/EAD, et plus généralement l’utilisation de XML et d’une grammaire, exige de vérifier si son document est bien valide au regard d’une DTD. Dans le monde des archives, il est courant d’utiliser la DTD de 2002. L’encodage d’un instrument de recherche en XML se fait donc sous le contrôle…

  • Desiderata, désirées data

    Desiderata, désirées data. Je dois avouer être assez satisfait de ce jeu de mots qui me donne le nom du présent blog. Il en exprime la ligne éditoriale : ici, je parlerai des aspects techniques et patrimoniaux des archives — et en particulier des données. En guise d’ouverture, je propose donc d’étayer quelques problématiques insignes…