Приложение созданно в рамках хакатона ТилТех (Санкт-Петербург, 17-19 ноября 2017 )
http://tealtechmedhack.sci-guide.com/
- На нейросетках https://github.com/d4nst/RotNet
- https://github.com/kakul/Alyn
https://www.pyimagesearch.com/2014/09/01/build-kick-ass-mobile-document-scanner-just-5-minutes/
python lib/process_image.py out/2.crop.png out/3.binar.png
- выделение блока с текстом http://www.danvk.org/2015/01/07/finding-blocks-of-text-in-an-image-using-python-opencv-and-numpy.html
- Питон тессеракт https://github.com/madmaze/pytesseract
- проверка по словарю https://github.com/blatinier/pyhunspell
- https://datascience.blog.wzb.eu/2016/07/13/autocorrecting-misspelled-words-in-python-using-hunspell/
python 2.7
virtualenv venv -p python2
source venv/bin/activate
Tesseract - распознование текста
Надо поставить 4 версию
sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update
sudo apt install tesseract-ocr
Установить русский язык, можно скачав отсюда
wget https://github.com/tesseract-ocr/tessdata/blob/master/rus.traineddata
и скопировать сюда /usr/share/tesseract-ocr/tessdata
или /usr/share/tesseract-ocr/4.00/tessdata
https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-provide-my-own-dictionary https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-data
rus.user-words