Application python pour extraire les bulles et le texte de celles-ci avant de générer des fichiers audios correspondants.
C'est un peu primitif pour l'instant.
- Installer conda (miniconda suffit :
- Créer l'environment :
conda env create -f conda_environment.yml
- Activer l'environment conda :
conda activate ComicReaderFr
python repertoire_de_sortie fichier_image.jpg
Le script va analyzer le fichier fichier_image.jpg
et mettre les fichiers audios, le fichier html, les différentes images et le texte extract (un fichier par bulle détectée) dans le répertoire, avec comme base de nom fichier_image
Il y a quelques fichiers dans le répertoire examples
Python, Pytorch, for OCR (Optical Character Recognition), OpenCV snakers4/silero-models for TTS generation
Many thanks to: !
Dubray, David & Laubrock, Jochen. (2019). Deep CNN-based Speech Balloon Detection and Segmentation for Comic Books.
I wanted to give a shoutout to the research team from Cornell for their research in this area. I reached out to them when I was considering a Nueral Net approach to this problem and they helped answer some questions that I had. You can read their excellent research paper at the above link and check out their model here: