/Web-Crawler

code for《Python3网络爬虫开发实战》

Primary LanguagePython

Web-Crawler

  1. 抓取猫眼电影排行(Chapter 3)
    利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。
  2. 抓取今日头条街拍美图(Chapter 6)
    通过分析Ajax请求来抓取今日头条的街拍美图。
  3. 爬取淘宝商品(Chapter 7)
    用Selenium来模拟浏览器操作,抓取淘宝的商品信息。
  4. 爬取微信公众号文章(Chapter 9)
    利用代理爬取微信公众号的文章。
  5. 爬取GitHub(Chapter 10)
    模拟登录,爬取登录后才可以访问的页面信息。
  6. 爬取去哪儿网的旅游攻略(Chapter 12)
    用Pyspider爬取去哪儿网的旅游攻略。

图形验证码、滑动验证码、点触验证码、宫格验证码的识别(Chapter 8)
代理池的维护(Chapter 9)
Cookie池的搭建(Chapter 10)
Scrapy对接Selenium(Chapter 13)