wuyanming/python-web-crawlers

spider everyday rountine

Python

python-web-crawlers

Spider Practice

更新各大网站爬虫，破解主流网站登录

项目说明

很多代码都是我大学时候写的，有些都过期了，没必要要。所以我打算将代码全部更新打包，更加直观。

具体的文件夹说明

Mainstream_web_spider 主流网站爬虫
Mainstrea_login 主流网站登录
Code_crack 验证码破解
Web_reverse_spider 逆向爬虫
Other_web_spider 其他网站爬虫
Fuctional_web_spider 功能爬虫（图片下载，视频下载)
Bonus_spider 福利爬虫（你懂得）
Mobie_spider App爬虫
Scrapy_spider scrapy爬虫相关
Spider_frame 爬虫框架
test 随手写的一些
Spider_base 爬虫基础
Spider_data 爬虫数据存储
Anti-reptile 反爬虫手段

2018-09-29更新

添加了图片验证码的识别
添加了验证码自动生成逻辑
添加了CNN算法识别验证码

2018-10-09更新

添加了多线程爬虫逻辑,换xpath或者是url即用（Spider_frame）
添加了多进程爬虫逻辑，同上（Spider_frame）
添加了协程爬虫逻辑
添加反爬方式几种（Spider_frame）

2018-10-10更新

添加了图形验证码识别破解（Code_crack）
添加了滑动验证码识别破解（Code_crack）

2018-10-26更新

添加了模拟登录GITHUB
添加了模拟登录百度

2019-01-15更新

添加了滑动验证码的破解
添加了验证码识别模块

2019-01-20更新

添加requests具体用法

2019-03-10更新

1.12306官网的登陆

2019-03-21更新

更新爬虫数据存储逻辑

2019-03-24 UPDATE

Update Ajax抓取

2019-04-14 UPDATE

Update 猫眼电影数据排行（爬虫基础）

2019-06-23 UPDATE

Update 爬虫基础包的使用方法
Update bs4, xpath, re等包的使用方法
Update 反爬技术项目

2019-07-27 UPDATE

UPDATE 网易云音乐Download

2019-08-03 UPDATE

添加验证码识别逻辑（opencv）
添加验证码识别逻辑（CNN算法优化）
添加验证码识别逻辑（PIL）

2019-08-07 UPDATE

添加美餐自动登录