/cnblog_spider

一个针对博客园特定博主的文章爬虫

Primary LanguageHTML

一个针对博客园特定博主的文章爬虫


  • 环境:Python2.7、Windows10 运行成功
  • 使用html2text来转换为markdown格式文档,方便后续进行处理。
  • 在输出pdf文件时采用了多线程来加快速度
  • 使用了wkhtmltopdf作为转换工具