**테서랙트(Tesseract)**는 다양한 운영 체제를 위한 광학 문자 인식 엔진입니다. 이 소프트웨어는 Apache License, 버전 2.0에 따라 배포되는 무료 소프트웨어이며 2006년부터 Google에서 개발을 후원했습니다. Tesseract는 1995년 문자 정확도 측면에서 3대 OCR 엔진에 속했으며 Linux, Windows 및 Mac OS X에서 사용할 수 있습니다. 버전 2 이하의 Tesseract에서는 간단한 단일 열 텍스트의 TIFF 이미지만 입력으로 허용했었고, Version 3 부터 Tesseract는 출력 텍스트 형식, OCR 위치 정보 및 페이지 레이아웃 분석을 지원하게 되었고 Leptonica 라이브러리를 사용하여 여러 가지 새로운 이미지 형식에 대한 지원이 추가되었습니다. 현재는 많은 언어 및 스크립트에 대한 LSTM 기반 OCR 엔진 및 모델이 추가되어 총 116개의 언어가 제공됩니다.
< 참고 - 위키백과 : 테서랙트(Tesseract) >
Setup tutorial |
---|
Tesseract, PyTesseract 설치방법 |
설명 | Colab Code |
---|---|
파이썬 Tesseract OCR 활용 (기본) | [code] |
파이썬 Tesseract OCR 활용 (심화1) | [code] |
파이썬 Tesseract OCR 활용 (심화2) | [code] |
문자 추출 및 인식 (EAST text Detector Model) | [code] |
EasyOCR 사용하기 | [code] |