/Scrapy_BackUp

商业爬虫项目暂存地

Primary LanguageHTML

    这是本人Scrapy爬虫框架所经历的步骤,里面有所有的笔记以及项目

----------------------------------------tag----------------------------------------
01:

    爬虫的底层,urllib、handler与opener、http请求

    项目:杂碎项目

----------------------------------------tag----------------------------------------
02:

    简易爬取与解析、xpath、selector、json、正则表达式、多线程爬虫
    使用BeautifulSoup、lxml、json

    项目:爬取内涵段子吧的内涵段子,并将数据保存为json文件

----------------------------------------tag----------------------------------------
03:

    使用selenium+phantomjs、如何登录,如何处理登录时的验证码问题
    使用机器识别验证码图片

    项目:登录豆瓣、抓取斗鱼TV的直播信息

----------------------------------------tag----------------------------------------
04Scrapy:

    用scrapy处理页面、学会处理需跟进的url、学会多种类爬虫
    在scrapy中结合beautifulsoup、selenium+phantomjs、mongodb
    学习使用scrapy反爬虫

       项目:爬取腾讯招聘网站、scrapy的斗鱼TV直播信息、豆瓣电影top250、东莞阳光问政

----------------------------------------tag----------------------------------------
05Sugar:

    学会结合redis数据库,实现分布式爬虫

    项目:新浪所有帖子信息的爬取

----------------------------------------tag----------------------------------------
06Shrine:

    大型项目,较规范的代码,完好的数据抓取能力,反爬虫处理,数据储存性能好与效率较高
    人性地考虑目标网站服务器压力,高并发处理io,需抓取的资源均可抓取到,
    可分类选择抓取数据,抓取的数据可永久保存至本地磁盘或数据库,
    具有实用性较高的介绍文档,可保证懂python语言的用户都可运行

    项目:琉璃神社爬虫系统,版本:1.0.1,作者:曾影穹

----------------------------------------tag----------------------------------------
07Video:

    同上,属于商业性质爬虫,主要目的是攻略视频网站

    项目:
            Fk5378视频网站爬虫系统,版本:1.0.0,作者:曾影穹

----------------------------------------tag----------------------------------------
项目注意事项:

    使用的是 Python3.6.1 以上的Python版本
    许久未更新,表示该项目已经完善
    01-06,是学习爬虫的历程
    06开始,都是商业性质爬虫
    源码公布
    爬取的资源也会上传,若要下载到本地,请考虑磁盘大小
    目前占用磁盘:(约)3.19G