/Doc88Download

Downloader for Doc88 documents with tesseract OCR

Primary LanguageJavaScript

本项目提供一个道客巴巴文档的简单下载方案。示例文档 https://www.doc88.com/p-77439951055572.html 。进入网页后,需要点击最下方的继续免费阅读全文,并等待全部页面加载完毕。然后在页面空白处右键,进入审查元素页面。在 console 中粘贴 download.js 的全部内容并执行。执行后的页面由多张图片组成。

下面需要下载这些图片。目前没有找到什么好办法,只能手动一张张下载。将图片保存到 images 目录下,统一成 png 形式。

然后使用 tesseract 对图片进行 OCR 识别,工具的下载和安装参考 https://blog.csdn.net/u010670689/article/details/78374623 。使用的命令已经写在 ocr.sh 里了,可以直接运行。识别结果会输出到 images/output 中。