Scrapy_BackUp: An HTML repository from VcrTing

    这是本人Scrapy爬虫框架所经历的步骤，里面有所有的笔记以及项目

----------------------------------------tag----------------------------------------
01：

    爬虫的底层，urllib、handler与opener、http请求

    项目：杂碎项目

----------------------------------------tag----------------------------------------
02：

    简易爬取与解析、xpath、selector、json、正则表达式、多线程爬虫
    使用BeautifulSoup、lxml、json

    项目：爬取内涵段子吧的内涵段子，并将数据保存为json文件

----------------------------------------tag----------------------------------------
03：

    使用selenium+phantomjs、如何登录，如何处理登录时的验证码问题
    使用机器识别验证码图片

    项目：登录豆瓣、抓取斗鱼TV的直播信息

----------------------------------------tag----------------------------------------
04Scrapy：

    用scrapy处理页面、学会处理需跟进的url、学会多种类爬虫
    在scrapy中结合beautifulsoup、selenium+phantomjs、mongodb
    学习使用scrapy反爬虫

项目：爬取腾讯招聘网站、scrapy的斗鱼TV直播信息、豆瓣电影top250、东莞阳光问政

----------------------------------------tag----------------------------------------
05Sugar：

    学会结合redis数据库，实现分布式爬虫

    项目：新浪所有帖子信息的爬取

----------------------------------------tag----------------------------------------
06Shrine：

    大型项目，较规范的代码，完好的数据抓取能力，反爬虫处理，数据储存性能好与效率较高
    人性地考虑目标网站服务器压力，高并发处理io，需抓取的资源均可抓取到，
    可分类选择抓取数据，抓取的数据可永久保存至本地磁盘或数据库，
    具有实用性较高的介绍文档，可保证懂python语言的用户都可运行

    项目：琉璃神社爬虫系统，版本：1.0.1，作者：曾影穹

----------------------------------------tag----------------------------------------
07Video：

    同上，属于商业性质爬虫，主要目的是攻略视频网站

    项目：
            Fk5378视频网站爬虫系统，版本：1.0.0，作者：曾影穹

----------------------------------------tag----------------------------------------
项目注意事项：

    使用的是 Python3.6.1 以上的Python版本
    许久未更新，表示该项目已经完善
    01-06，是学习爬虫的历程
    06开始，都是商业性质爬虫
    源码公布
    爬取的资源也会上传，若要下载到本地，请考虑磁盘大小
    目前占用磁盘：（约）3.19G

VcrTing/Scrapy_BackUp