An English version of the README is available here: README_en.md.
- Auteur: Antoine Augustin Parmentier
- Date de publication: 1778
- Original disponible à https://gallica.bnf.fr/ark:/12148/bpt6k5823829n.texteImage
Obtenir une version numérique facilement lisible du livre (voir version originale du pdf)
Ce qui est laissé intact:
- les retours à la ligne,
- les césures,
- la conjuguaison de vieux français (ex: "on employoit" pour "on employait").
Ce qui est remplacé:
- les ſ ('s' longs), remplacés par le 's' courant.
Ce qui est enlevé:
- les numéros de pages,
- les numéros de chapitres,
- les multiple lignes vides,
- les caractères de contrôle autres que les retours à la ligne et la tabulations.
Une fois toutes les pages nettoyées, il sera facile de modifier automatiquement les pages pour créer une version moderne du texte.
Renammage:
Les fichiers restant à nettoyer sont nommés pages/*.todo.txt
. Une fois nettoyé, le ficher est renommé en pages/*.done.txt
.
Exemple:
- avant nettoyage:
pages/056_chap_1_page_001.todo.txt
- après nettoyage:
pages/056_chap_1_page_001.done.txt
Assemblage des fichiers pages/*.done.txt
en 1 fichier par chapitre (chapitres/1.txt
etc.)
Le nettoyage du chapitre 0 ("Introduction") est en cours.
Pour envoyer des modifications, plusieurs options:
-
via git & github: créez un fork du projet et proposez une pull request,
-
en créant une "issue" en utilisant ce template,
-
vous pouvez aussi envoyer le contenu modifié d'une page par email à:
e1uixs10i AT mozmail.com
Je me chargerai alors d'intégrer ces changements au projet.
Dans le répertoire "pages", les noms de fihiers contiennent, dans l'ordre:
- le numéro de page du pdf,
- le numéro du chapitre,
- le numéro de page dans le livre,
- le status ("todo" ou "done") indiquant si le fichier reste à nettoyer ou a déjà été traité.
Exemple: 056_chap_1_page_001.todo.txt
:
- page 56 du pdf,
- chapitre 1,
- page 1 de livre,
- n'a pas encore été nettoyé.
-
Imagemagick a été utilisé pour la création d'un fichier image PNG pour chaque page du livre:
$ ./ocr/pdf_to_images.sh
-
Tesseract a été utilisé pour la reconnaissance des caractères de chacune des pages:
$ ./ocr/images_to_txt.sh
Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
Voir LICENSE