- 将可以预览的word文档下载为word文档,如果文档是扫描件,同样支持.
- 将可以预览的ppt和pdf下载为不可编辑的ppt,因为网页上只有图片,所以理论上无法下载可编辑的版本.
- 支持表格下载,目前文档中的表格在网页源码中排列混乱,同时还需要结合CSS来进行布局,后续会想别的方法.
- 支持excel表格下载,目前还没有尝试,后续会试一试 .
nulltoany/baiduwenku
百度文库!进来吧,这是就是你想要的百度文库爬虫,必能运行!word生成可编辑的word文档,ppt和pdf生成不可编辑的ppt(排版完美).可以实现百度文库自动化爬取,支持ppt,pdf,doc。
Python