目前正在维护中的有微博的评论爬虫(可布置分布式)、微博cookies代理池、ip代理池、56ting的有声销小说下载、以及笔趣阁的小说下载。
可以设置分布式,自己在setting中设置redis的账户密码,以及requirement.txt,并将spider文件中的类继承进行更改。
原版本的cookies池的由于微博使用了最新的极验,所以当前的版本出错几率很高所以这个就废弃不用了。更改使用Selenium+Chrome的方式获得cookies。 目前只提供一个初级版本,当出现验证的时候需要手动进行验证。基本上三四个就能满足大部分的抓取的需求。
目前稳定使用,但是抓取效率不是很高。后期会给其加上多线程。
稳定使用
稳定使用不过后期会更改为scrapy框架的。
分布式爬虫爬取房天下上各个城市的各种二手房和新房的房价、楼盘信息、以及楼盘地址。