/WebCrawler

关于安居客二手房和去哪儿网机票信息的爬虫

Primary LanguagePython

WebCrawler

项目简介:

  1. 实现了安居客二手房网站青岛市二手房信息爬取与可视化分析(青岛市各区平均单价,各区的各个分区平均单价)
  2. 实现了去哪儿网最近20天青岛至北京机票信息的爬取与可视化分析(20天机票价格走势,20天个时间段飞机数量)

开发文档:

2019年:

  • 10月25日 实现安居客爬取
  • 11月 1日 实现安居客多线程爬取,并爬取所有数据
  • 11月 2日 实现安居客数据清洗
  • 11月 3日 实现安居客可视化分析(青岛市各区平均单价,各个区的分区平均单价)
  • 11月 6日 实现去哪儿网机票信息爬取,并接着实现多线程爬取
  • 11月 8日实现去哪儿网机票信息数据清洗与可视化分析
  • 11月 8-10日 每天分别爬取9日-28日 10日-29日 11日-30日的机票信息并进行可视化分析

预先准备

  1. Anaconda-Navigator 配置python环境
  2. ChromeDriver对应版本

使用方法

安居客二手房:

  • 将爬虫中网址改成成自己要爬的区,开始运行2秒后后,中断执行,进入安居客网站,进行人机验证,然后开始再次执行代码,开始爬取,等待爬取成功。打开数据清洗.py,改文件名字为爬取的信息文件名字,进行数据清洗,然后打开对应的可视化分析代码并执行,进行可视化分析。

去哪儿网:

  • 运行爬虫代码,运行数据清洗代码,对数据进行清洗,然后打开可视化分析代码,修改起始与终止日期,修改保存的文件名,进行可视化分析。