这是本人Scrapy爬虫框架所经历的步骤,里面有所有的笔记以及项目
----------------------------------------tag----------------------------------------
01:
爬虫的底层,urllib、handler与opener、http请求
项目:杂碎项目
----------------------------------------tag----------------------------------------
02:
简易爬取与解析、xpath、selector、json、正则表达式、多线程爬虫
使用BeautifulSoup、lxml、json
项目:爬取内涵段子吧的内涵段子,并将数据保存为json文件
----------------------------------------tag----------------------------------------
03:
使用selenium+phantomjs、如何登录,如何处理登录时的验证码问题
使用机器识别验证码图片
项目:登录豆瓣、抓取斗鱼TV的直播信息
----------------------------------------tag----------------------------------------
04Scrapy:
用scrapy处理页面、学会处理需跟进的url、学会多种类爬虫
在scrapy中结合beautifulsoup、selenium+phantomjs、mongodb
学习使用scrapy反爬虫
项目:爬取腾讯招聘网站、scrapy的斗鱼TV直播信息、豆瓣电影top250、东莞阳光问政
----------------------------------------tag----------------------------------------
05Sugar:
学会结合redis数据库,实现分布式爬虫
项目:新浪所有帖子信息的爬取
----------------------------------------tag----------------------------------------
06Shrine:
大型项目,较规范的代码,完好的数据抓取能力,反爬虫处理,数据储存性能好与效率较高
人性地考虑目标网站服务器压力,高并发处理io,需抓取的资源均可抓取到,
可分类选择抓取数据,抓取的数据可永久保存至本地磁盘或数据库,
具有实用性较高的介绍文档,可保证懂python语言的用户都可运行
项目:琉璃神社爬虫系统,版本:1.0.1,作者:曾影穹
----------------------------------------tag----------------------------------------
07Video:
同上,属于商业性质爬虫,主要目的是攻略视频网站
项目:
Fk5378视频网站爬虫系统,版本:1.0.0,作者:曾影穹
----------------------------------------tag----------------------------------------
项目注意事项:
使用的是 Python3.6.1 以上的Python版本
许久未更新,表示该项目已经完善
01-06,是学习爬虫的历程
06开始,都是商业性质爬虫
源码公布
爬取的资源也会上传,若要下载到本地,请考虑磁盘大小
目前占用磁盘:(约)3.19G