crawlerQunar.py 功能:一个爬行去哪儿网(qunar.com)数据的爬虫脚本。 原理:构造http请求模拟该网站的AJAX通信机制(异步刷新时只传递数据)获取json格式的纯数据。 优点:爬行的数据是结构化的数据,使用方便。 运行环境依赖说明: 1、当前的数据存储依赖于MongoDB数据,当前的设置爬行完后大概是20万条数据,去掉限制后大概有200万条数据; 2、在 Ubuntu linux 下开发。
crawlerQunar.py 功能:一个爬行去哪儿网(qunar.com)数据的爬虫脚本。 原理:构造http请求模拟该网站的AJAX通信机制(异步刷新时只传递数据)获取json格式的纯数据。 优点:爬行的数据是结构化的数据,使用方便。 运行环境依赖说明: 1、当前的数据存储依赖于MongoDB数据,当前的设置爬行完后大概是20万条数据,去掉限制后大概有200万条数据; 2、在 Ubuntu linux 下开发。