heshenxian1/OpenMindClass

扫描 PDF 全文文本化检索

Closed this issue · 1 comments

之前以为用纸书从头看到尾是正确的看书方法,后来知道阳老师使用了词频的方法快速阅读,具体不清楚,为了提高主题阅读的效率和质量,采用计算机辅助阅读,当然神作为了阅读的系统和乐趣值得通读:

PDF 文本化

  • 批量索引同主题PDF的关键词 - 保存检索结果
  • 导出txt,词频统计或者知识图谱Citespace - 保存结果

文本化mac上测试了下,试了4款ocr,文本化用 adobe acrobat pro dc操作方便,识别准确,输出体积小,虽然有个别字识别错误,但综合下来还是最好的。
截图如下

索引使用foxtrot软件,使用方法可以去 艺术史图书馆 公众号检索 foxtrot ,有多篇说明,https://mp.weixin.qq.com/s/gPuh0TPTDB_NHWwMHVUunA。
如果遇到spotlight问题可以网上搜下或者留言。
检索截图如下

词频统计可以用免费的AntConc,WordSmith Tool可能更方便但是太贵了下载不了。
还不知道怎么,所以没做。

因为扫描的文本化比较耗时,现成的epub/mobi之类可以用calibre直接转成文本化的pdf,文本化好的PDF分享加百度网盘群
https://pan.baidu.com/mbox/homepage?short=mmZ5MIk
加入后可以分享文件,已经分享的文件在群组的右上角的文件库里。

ocr速度和检索方法,词频技巧留言补充