/spider_store

各种各样的爬虫练手项目

Primary LanguagePython

本项目为各种各样的爬虫

目前正在维护中的有微博的评论爬虫(可布置分布式)、微博cookies代理池、ip代理池、56ting的有声销小说下载、以及笔趣阁的小说下载。

微博评论爬虫

可以设置分布式,自己在setting中设置redis的账户密码,以及requirement.txt,并将spider文件中的类继承进行更改。

cookies池

原版本的cookies池的由于微博使用了最新的极验,所以当前的版本出错几率很高所以这个就废弃不用了。更改使用Selenium+Chrome的方式获得cookies。 目前只提供一个初级版本,当出现验证的时候需要手动进行验证。基本上三四个就能满足大部分的抓取的需求。

ip池

目前稳定使用,但是抓取效率不是很高。后期会给其加上多线程。

56ting

稳定使用

笔趣阁

稳定使用不过后期会更改为scrapy框架的。

房天下分布式爬虫

分布式爬虫爬取房天下上各个城市的各种二手房和新房的房价、楼盘信息、以及楼盘地址。