/pdf-to-words

解析pdf,转为单词

Primary LanguagePythonMIT LicenseMIT

pdf-to-words

pdf-to-words是一个将pdf解析为单词的小脚本,解析的单词会按照出现次数排序,由高到低。

读英文论文时,常遇到不熟悉的单词,只能边查询边读,但查单词容易影响连贯性的理解与思考。

借助这个小脚本,可以在读论文前,先解析一边输出单词,提前记单词,省得边看边查影响阅读思路。

GitHub

关键词: pdf, 解析, 单词

特点

  • pdf解析为单词
  • 单词按照出现次数降序排列

环境依赖

  • pdfminer (version:20191125) github
    • pip install pdfminer
  • python (3.x)

使用方法

python main.py demo.pdf

demo.pdf是xgboost的论文