/spider-crawler

使用crawler爬取一定文档,转为doc文件,同时使用python处理doc为docs,处理docx里面的文档格式

Primary LanguageJavaScript

spider-crawler

  • Nodejs + Crawler
  • Python
  • docx
  • officegen

调用windows的office的接口

处理Doc

使用crawler爬取一定文档,转为doc文件,同时使用python处理doc为docs,处理docx里面的文档格式