/Baiduwenku

徒手造轮子系列:百度文库爬虫,爬取文档的文字内容

Primary LanguagePython

百度文库爬虫

百度文库爬虫,爬取文档的文字内容。 主力功能是爬取百度会员下载限制的文档文字,鉴于之前Pandownload事件,幸好我没有盈利,也没啥影响力推广,更没有提供服务器接口,仅仅是写了代码完全开源,各位随意取用。

所需模块

Beautifulsoup requests