/python-web-crawlers

spider everyday rountine

Primary LanguagePython

python-web-crawlers

Spider Practice

更新各大网站爬虫,破解主流网站登录

项目说明

很多代码都是我大学时候写的,有些都过期了,没必要要。所以我打算将代码全部更新打包,更加直观。

具体的文件夹说明

  1. Mainstream_web_spider 主流网站爬虫
  2. Mainstrea_login 主流网站登录
  3. Code_crack 验证码破解
  4. Web_reverse_spider 逆向爬虫
  5. Other_web_spider 其他网站爬虫
  6. Fuctional_web_spider 功能爬虫(图片下载,视频下载)
  7. Bonus_spider 福利爬虫(你懂得)
  8. Mobie_spider App爬虫
  9. Scrapy_spider scrapy爬虫相关
  10. Spider_frame 爬虫框架
  11. test 随手写的一些
  12. Spider_base 爬虫基础
  13. Spider_data 爬虫数据存储
  14. Anti-reptile 反爬虫手段

2018-09-29更新

  1. 添加了图片验证码的识别
  2. 添加了验证码自动生成逻辑
  3. 添加了CNN算法识别验证码

2018-10-09更新

  1. 添加了多线程爬虫逻辑,换xpath或者是url即用(Spider_frame)
  2. 添加了多进程爬虫逻辑,同上(Spider_frame)
  3. 添加了协程爬虫逻辑
  4. 添加反爬方式几种(Spider_frame)

2018-10-10更新

  1. 添加了图形验证码识别破解(Code_crack)
  2. 添加了滑动验证码识别破解(Code_crack)

2018-10-26更新

  1. 添加了模拟登录GITHUB
  2. 添加了模拟登录百度

2019-01-15更新

  1. 添加了滑动验证码的破解
  2. 添加了验证码识别模块

2019-01-20更新

  1. 添加requests具体用法

2019-03-10更新

1.12306官网的登陆

2019-03-21更新

  1. 更新爬虫数据存储逻辑

2019-03-24 UPDATE

  1. Update Ajax抓取

2019-04-14 UPDATE

  1. Update 猫眼电影数据排行(爬虫基础)

2019-06-23 UPDATE

  1. Update 爬虫基础包的使用方法
  2. Update bs4, xpath, re等包的使用方法
  3. Update 反爬技术项目

2019-07-27 UPDATE

  1. UPDATE 网易云音乐Download

2019-08-03 UPDATE

  1. 添加验证码识别逻辑(opencv)
  2. 添加验证码识别逻辑(CNN算法优化)
  3. 添加验证码识别逻辑 (PIL)

2019-08-07 UPDATE

  1. 添加美餐自动登录