/BAO_Stage_DH_ENS_2021

Ce repository est une boîte à outils. Elle a été créée dans l'optique de donner accès à tous aux outils que nous avons conçus dans le cadre de notre stage à l'ENS de Paris.

Primary LanguagePython

Boite à outils dans le cadre d'un stage à l'ENS de Paris

Cette boite à outils a été créée dans l'optique de donner accès à tous aux outils que nous avons conçus dans le cadre de notre stage à l'ENS de Paris.

Sommaire

Dossier - Automatisation_copie_fichiers

Ce dossier contient plusieurs scripts Python qui ont pour but d'automatiser la création et le remplissage de dossiers de dataset. En savoir plus (README)

Lien vers le dossier Automatisation_copie_fichiers

Créé par @Heresta

Dossier - CorrectionPageXMLeScriptorium

Ce dossier contient un script Python ainsi qu'une feuille de transformation xsl qui ont pour but de normaliser des fichiers PAGE-XML afin de pouvoir les utiliser sans soucis dans l'application eScriptorium. En savoir plus (README)

Lien vers le dossier CorrectionPageXMLeScriptorium

Créé par @Heresta et @Juliettejns

Dossier - RetraitTranscriptionPAGEXML

Ce dossier contient un script Python ainsi qu'une feuille de transformation xsl qui ont pour but de partir d'un fichier xml sortant d'eScriptorium pour en enlever les transcriptions et en faire un simple fichier de segmentation. Cela a pour but d'aider les tests sur les modèles de recognizer d'eScriptorium tant que l'on n'a pas de modèle de segmentation qui fonctionne. En savoir plus (README)

Lien vers le dossier RetraitTranscriptionPAGEXML

Créé par @Heresta

Dossier - division_lines_zones

Ce dossier contient trois programmes CLI python qui permettent de récupérer des statistiques de quantités de type de zones et de lignes dans un fichier ALTO4. Attention ! A noter que ces programmes sont à adapter si le vocabulaire utilisé n'est pas celui de SegmOnto. En savoir plus (README)

Créé par Heresta

Dossier - documentationFormatsExistants

Ce dossier contient quatre fichiers xml commentés en français en fonction de leur documentation, de notre utilisation et de notre compréhension. Ils présentent plusieurs formats :

  • ALTO
    • version 2
    • version 4
  • PAGE-XML
    • en sortie de l'application Transkribus
    • en sortie de l'application eScriptorium

Lien vers le dossier documentationFormatsExistants

Créé par @Heresta et @Juliettejns

Dossier - problemesSegmentation

Ce dossier contient un fichier csv ainsi qu'un dossier d'images qui ont pour but de répertorier les problématiques recontrées lors de la segmentation d'imprimés du XVIIe et du XIXe siècle. En savoir plus (README)

Lien vers le dossier problemesSegmentation

Créé et complété par @Heresta et @Juliettejns

Fichier Python - creationCSVDataset.py

Ce fichier est un petit script qui permet de récupérer directement les noms des fichiers dans d'un dossier de dataset dans un fichier csv.

Attention à bien modifier les chemins indiqués dans le document!

Lien vers le fichier creationCSVDataset.py

Créé par @Juliettejns

Fichier Python - suppressionGrasItalique.py

Ce fichier est un petit script qui a pour but d'automatiser la suppression des balises <b> et <i> des documents PageXML.

Lien vers le fichier suppressionGrasItalique.py

Créé par @Juliettejns

Crédits

Ce repository est un dossier de travail administré par @Heresta et @Juliettejns avec l'aide de Simon Gabay et sous la supervision de Béatrice Joyeux-Prunel.

Il correspond au travail effectué lors du stage de fin d'études du master Technologies Numériques appliquées à l'Histoire de l'Ecole nationale des Chartes, réalisé dans le cadre du centre IMAGO et du projet ARTL@s.

Licence

Ce repository est CC-BY. 68747470733a2f2f692e6372656174697665636f6d6d6f6e732e6f72672f6c2f62792f322e302f38387833312e706e67