扫描 PDF 全文文本化检索
Closed this issue · 1 comments
Deleted user commented
之前以为用纸书从头看到尾是正确的看书方法,后来知道阳老师使用了词频的方法快速阅读,具体不清楚,为了提高主题阅读的效率和质量,采用计算机辅助阅读,当然神作为了阅读的系统和乐趣值得通读:
PDF 文本化
- 批量索引同主题PDF的关键词 - 保存检索结果
- 导出txt,词频统计或者知识图谱Citespace - 保存结果
文本化mac上测试了下,试了4款ocr,文本化用 adobe acrobat pro dc操作方便,识别准确,输出体积小,虽然有个别字识别错误,但综合下来还是最好的。
截图如下
索引使用foxtrot软件,使用方法可以去 艺术史图书馆 公众号检索 foxtrot ,有多篇说明,https://mp.weixin.qq.com/s/gPuh0TPTDB_NHWwMHVUunA。
如果遇到spotlight问题可以网上搜下或者留言。
检索截图如下
词频统计可以用免费的AntConc,WordSmith Tool可能更方便但是太贵了下载不了。
还不知道怎么,所以没做。
因为扫描的文本化比较耗时,现成的epub/mobi之类可以用calibre直接转成文本化的pdf,文本化好的PDF分享加百度网盘群
https://pan.baidu.com/mbox/homepage?short=mmZ5MIk
加入后可以分享文件,已经分享的文件在群组的右上角的文件库里。
Deleted user commented
ocr速度和检索方法,词频技巧留言补充