/Web_Crawler

The code of Web_Crawler(using python) I learned for about one month.

Primary LanguagePythonApache License 2.0Apache-2.0

Web_Crawler

The code of Web_Crawler(using python) I learned for about one month.
day01:
      01-第一个爬虫.py:爬取一个网页的源代码
      02-Request的使用.py:对请求头进行封装,伪装User-agent
      03-fake_useragent测试.py:Python库(fake-useragent),可以随机生成各种UserAgent
      04-get请求1.py:利用Request库的quote对中文字符进行编码
      05-get请求2.py:利用Request库的urlencode对中文字符进行编码
      06-贴吧案例.py:对百度贴吧任意网页源代码进行爬取
      07-post请求:发送post请求登录页面

day02:
      08-ajax请求的使用.py:爬取豆瓣电影动态页面
      09-https请求.py:请求SSL证书验证,12306网站为例
      10-opener的使用.py:利用opener创建urlopen
      11-proxy的使用.py:设置代理proxy
      12-cookie的使用.py:登录成功后,引入Cookie访问页面,实时
      13-cookie的使用2.py:未在网页上登录,利用表单信息先登录再访问页面
      14-cookie的使用3.py:将cookie保存到文件中,然后从文件中加载出来
      15-URLError的使用.py:用try-except语句来包围并捕获相应的异常
      16-request的使用1.py:requests 库的基本用法
      17-request的使用2.py:requests 库的基本用法,登录页面
      18-request的使用3.py:requests 库的基本用法,proxy代理
      19-request的使用4.py:requests 库的基本用法,SSL证书问题
      20-request的使用5.py:requests 库的基本用法,session和cookie

day03:
      21-re的使用.py:正则表达式进行字符串的匹配
      22-糗事百科案例.py:对糗事百科上的段子进行爬取
      23-beautifulsoup的使用.py:BeautifulSoup通过解析文档为用户提供需要抓取的数据
      24-xpath的使用.py:利用Xpath库爬取起点中文网小说名称和作者信息
      25-pyquery的使用.py:利用pyquery库对西刺代理网站的IP地址进行爬取
      26-json的使用.py:json模块提供了四个功能:dumps、dump、loads、load,用于字符串和python数据类型间进行转换
      27-jsonpath的使用.py:利用jsonpath库爬取拉勾网城市JSON文件,获取所有城市和代码

day04:
      28-多线程的使用.py:应用多线程爬取糗事百科段子
      29-tesseractOCR的使用.py:tesseract是一个google支持的开源ocr项目,可以识别验证码
      YDMHTTPDemo3.py:云打码平台识别验证码的代码接口
      30-云打码登录.py:利用云打码平台对验证码进行识别输入,登录网站
      31-爬取图文并茂文章方法.py:对新闻网站这样的图文并茂的网站进行爬取,以中文新闻网为例
      32-selenium的使用.py:熟悉Web应用程序测试的工具Selenium,Selenium测试直接运行在浏览器中

day05:
      movie1.py:利用 Xpath 爬取‘猫眼电影’的电影名称、电影类型、电影演员
      movie2.py:利用 PS4 爬取‘猫眼电影’的电影名称、电影类型、电影演员
      movie3.py:利用 re 正则表达式 爬取‘猫眼电影’的电影名称、电影类型、电影演员
      movie4.py:利用 pyquery 爬取‘猫眼电影’的电影名称、电影类型、电影演员

day06:
      33-selenium的简单使用.py:ChromeDriver开启无头模式(不打开浏览器页面)
      34-斗鱼直播练习.py:爬取斗鱼直播平台的主播以及观众人数(热度)等基本信息
      35-selenium滚动条的使用.py:对滚动页面进行滚动条的使用
      36-图虫网爬取图片.py:对图虫网的图片进行爬取图片练习
      37-双色球数据下载.py:对彩票网站双色球下注数据进行爬取练习,并将数据存储到mysql数据库中,并且对数据进行更新
      38-爬虫新写法.py:将爬取流程抽取出类class

demo1:
spiders:
      baidu.py:Scrapy框架的介绍和简单使用
      qidian.py:利用Scrapy框架爬取起点中文网的小说的名字和作者
      maoyan.py:利用Scrapy框架爬取猫眼电影名称和评分

xiaoshuo:
spiders:
      zww.py:Scrapy框架对小说“武道巅峰"内容进行爬取
      zww2.py:Scrapy框架利用crawlSpider类对小说“龙王传说"内容进行爬取

tupian:
spiders:
      zol.py:使用ImagesPipeline下载图片
      http_ua.py:重写middlewares.py文件,获取动态UA
      proxymiddlewares.py:scrapy中动态代理的使用演示
      baidu.py:演示模拟登录-Request、Response

login:
spiders:
      login1.py:Scrapy登录方式1演示
      login2.py:Scrapy登录方式2演示
      login3.py:Scrapy登录方式3演示

mongo_demo:
      mongo_demo.py:演示python和MongoDB交互,数据库连接以及操作数据
spiders:
      douban.py:爬取豆瓣电影Top250,将电影名和星级存入数据库中

splash_demo:
      splash_demo.py:splash与requests结合
      splash_demo2.py:splash与requests结合,手写lua代码
      spiders:
      guazi.py:splash和Scrapy结合
      guazi2.py:splash和Scrapy结合,手写lua代码

selenium_demo:
spiders:
      guazi.py:selenium和Scrapy结合,修改middlewares.py代码

room:
      对链家网信息进行爬取,并将数据保存到数据库中(MongoDB和Mysql)

duanzi:
spiders:
      scrapy_redis分布式爬虫框架的写法,让爬虫具有了分布式爬取的功能,TreeSoft数据库管理系统的使用
redis_mongoDB.py:从redis中取出数据库到MongoDB数据库中