Cette boite à outils a été créée dans l'optique de donner accès à tous aux outils que nous avons conçus dans le cadre de notre stage à l'ENS de Paris.
Ce dossier contient plusieurs scripts Python qui ont pour but d'automatiser la création et le remplissage de dossiers de dataset. En savoir plus (README)
Lien vers le dossier Automatisation_copie_fichiers
Créé par @Heresta
Ce dossier contient un script Python ainsi qu'une feuille de transformation xsl qui ont pour but de normaliser des fichiers PAGE-XML afin de pouvoir les utiliser sans soucis dans l'application eScriptorium. En savoir plus (README)
Lien vers le dossier CorrectionPageXMLeScriptorium
Créé par @Heresta et @Juliettejns
Ce dossier contient un script Python ainsi qu'une feuille de transformation xsl qui ont pour but de partir d'un fichier xml sortant d'eScriptorium pour en enlever les transcriptions et en faire un simple fichier de segmentation. Cela a pour but d'aider les tests sur les modèles de recognizer d'eScriptorium tant que l'on n'a pas de modèle de segmentation qui fonctionne. En savoir plus (README)
Lien vers le dossier RetraitTranscriptionPAGEXML
Créé par @Heresta
Ce dossier contient trois programmes CLI python qui permettent de récupérer des statistiques de quantités de type de zones et de lignes dans un fichier ALTO4. Attention ! A noter que ces programmes sont à adapter si le vocabulaire utilisé n'est pas celui de SegmOnto. En savoir plus (README)
Créé par Heresta
Ce dossier contient quatre fichiers xml commentés en français en fonction de leur documentation, de notre utilisation et de notre compréhension. Ils présentent plusieurs formats :
- ALTO
- version 2
- version 4
- PAGE-XML
- en sortie de l'application Transkribus
- en sortie de l'application eScriptorium
Lien vers le dossier documentationFormatsExistants
Créé par @Heresta et @Juliettejns
Ce dossier contient un fichier csv ainsi qu'un dossier d'images qui ont pour but de répertorier les problématiques recontrées lors de la segmentation d'imprimés du XVIIe et du XIXe siècle. En savoir plus (README)
Lien vers le dossier problemesSegmentation
Créé et complété par @Heresta et @Juliettejns
Ce fichier est un petit script qui permet de récupérer directement les noms des fichiers dans d'un dossier de dataset dans un fichier csv.
Attention à bien modifier les chemins indiqués dans le document!
Lien vers le fichier creationCSVDataset.py
Créé par @Juliettejns
Ce fichier est un petit script qui a pour but d'automatiser la suppression des balises <b>
et <i>
des documents PageXML.
Lien vers le fichier suppressionGrasItalique.py
Créé par @Juliettejns
Ce repository est un dossier de travail administré par @Heresta et @Juliettejns avec l'aide de Simon Gabay et sous la supervision de Béatrice Joyeux-Prunel.
Il correspond au travail effectué lors du stage de fin d'études du master Technologies Numériques appliquées à l'Histoire de l'Ecole nationale des Chartes, réalisé dans le cadre du centre IMAGO et du projet ARTL@s.