/chinese-pdf-ocr

🔎📖对中文PDF进行OCR | OCR for Chinese PDF file using API from DayBreak-u/chineseocr_lite

Primary LanguageC++GNU General Public License v2.0GPL-2.0

zh en

chinese-pdf-ocr

对中文PDF文件进行OCR。使用了DayBreak-u/chineseocr_lite的OCR模型。

用法

安装poppler

用于PDF转图片,被Python的pdf2image包使用。各平台的安装方法

安装Python依赖包

pip3 install -r requirements.txt

运行主程序

python3 main.py --file <PDF文件路径> --start <OCR开始页码> --end <OCR结束页码>

📘 示例
对当前目录下的1.pdf文件进行OCR,页码从150开始,到155结束。

python3 main.py --file ./1.pdf --start 150 --end 155

效果图

效果图