An English version of the README is available here: README_en.md.

Le parfait boulanger, ou Traité complet sur la fabrication et le commerce du pain

Auteur: Antoine Augustin Parmentier
Date de publication: 1778
Original disponible à https://gallica.bnf.fr/ark:/12148/bpt6k5823829n.texteImage

But du projet

Obtenir une version numérique facilement lisible du livre (voir version originale du pdf)

Ce qui est laissé intact:

Ce qui est remplacé:

Ce qui est enlevé:

Une fois toutes les pages nettoyées, il sera facile de modifier automatiquement les pages pour créer une version moderne du texte.

Renammage:

Les fichiers restant à nettoyer sont nommés pages/*.todo.txt. Une fois nettoyé, le ficher est renommé en pages/*.done.txt.

Exemple:

Assemblage des fichiers pages/*.done.txt en 1 fichier par chapitre (chapitres/1.txt etc.)

Le nettoyage du chapitre 0 ("Introduction") est en cours.

Pour envoyer des modifications, plusieurs options:

via git & github: créez un fork du projet et proposez une pull request,
en créant une "issue" en utilisant ce template,
vous pouvez aussi envoyer le contenu modifié d'une page par email à:

e1uixs10i AT mozmail.com

Je me chargerai alors d'intégrer ces changements au projet.

Dans le répertoire "pages", les noms de fihiers contiennent, dans l'ordre:

le numéro de page du pdf,
le numéro du chapitre,
le numéro de page dans le livre,
le status ("todo" ou "done") indiquant si le fichier reste à nettoyer ou a déjà été traité.

Exemple: 056_chap_1_page_001.todo.txt:

Imagemagick a été utilisé pour la création d'un fichier image PNG pour chaque page du livre:
```
$ ./ocr/pdf_to_images.sh
```
Tesseract a été utilisé pour la reconnaissance des caractères de chacune des pages:
```
$ ./ocr/images_to_txt.sh
```

Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)