扫描 PDF 全文文本化检索

Question

Closed this issue 5 years ago · 1 comments

之前以为用纸书从头看到尾是正确的看书方法，后来知道阳老师使用了词频的方法快速阅读，具体不清楚，为了提高主题阅读的效率和质量，采用计算机辅助阅读，当然神作为了阅读的系统和乐趣值得通读：

PDF 文本化

文本化mac上测试了下，试了4款ocr，文本化用 adobe acrobat pro dc操作方便，识别准确，输出体积小，虽然有个别字识别错误，但综合下来还是最好的。
截图如下

索引使用foxtrot软件，使用方法可以去艺术史图书馆公众号检索 foxtrot ，有多篇说明，https://mp.weixin.qq.com/s/gPuh0TPTDB_NHWwMHVUunA。
如果遇到spotlight问题可以网上搜下或者留言。
检索截图如下

词频统计可以用免费的AntConc，WordSmith Tool可能更方便但是太贵了下载不了。
还不知道怎么，所以没做。

因为扫描的文本化比较耗时，现成的epub/mobi之类可以用calibre直接转成文本化的pdf，文本化好的PDF分享加百度网盘群
https://pan.baidu.com/mbox/homepage?short=mmZ5MIk
加入后可以分享文件，已经分享的文件在群组的右上角的文件库里。

Answer 1 · 2019-09-30T12:06:31.000Z

ocr速度和检索方法，词频技巧留言补充