chinese-pdf-ocr
对中文PDF文件进行OCR。使用了DayBreak-u/chineseocr_lite的OCR模型。
用法
安装poppler
用于PDF转图片,被Python的pdf2image包使用。各平台的安装方法。
安装Python依赖包
pip3 install -r requirements.txt
运行主程序
python3 main.py --file <PDF文件路径> --start <OCR开始页码> --end <OCR结束页码>
对当前目录下的1.pdf
文件进行OCR,页码从150
开始,到155
结束。
python3 main.py --file ./1.pdf --start 150 --end 155