/basic_tesseract_ocr

Basics of OCR using python, tesseract

Primary LanguageJupyter NotebookApache License 2.0Apache-2.0

Tesseract란?

Tesseract

**테서랙트(Tesseract)**는 다양한 운영 체제를 위한 광학 문자 인식 엔진입니다. 이 소프트웨어는 Apache License, 버전 2.0에 따라 배포되는 무료 소프트웨어이며 2006년부터 Google에서 개발을 후원했습니다. Tesseract는 1995년 문자 정확도 측면에서 3대 OCR 엔진에 속했으며 Linux, Windows 및 Mac OS X에서 사용할 수 있습니다. 버전 2 이하의 Tesseract에서는 간단한 단일 열 텍스트의 TIFF 이미지만 입력으로 허용했었고, Version 3 부터 Tesseract는 출력 텍스트 형식, OCR 위치 정보 및 페이지 레이아웃 분석을 지원하게 되었고 Leptonica 라이브러리를 사용하여 여러 가지 새로운 이미지 형식에 대한 지원이 추가되었습니다. 현재는 많은 언어 및 스크립트에 대한 LSTM 기반 OCR 엔진 및 모델이 추가되어 총 116개의 언어가 제공됩니다.

< 참고 - 위키백과 : 테서랙트(Tesseract) >


Setup tutorial
Tesseract, PyTesseract 설치방법

설명 Colab Code
파이썬 Tesseract OCR 활용 (기본) [code]
파이썬 Tesseract OCR 활용 (심화1) [code]
파이썬 Tesseract OCR 활용 (심화2) [code]
문자 추출 및 인식 (EAST text Detector Model) [code]
EasyOCR 사용하기 [code]