strange-jiong/graduation-project

just graduation

Python

毕业设计的爬虫实现

实现

所用框架为python+scrapy，前期使用的测试平台为这个(需要注册)，之后打算在本地跑，存入MySQL数据库中，方便进行数据分析。

关于middlewares（中间件）的使用

pipelines.py的定义

mysql数据库实现异步存储

使用

以后再说。

如果需要在网上平台进行测试，需要在 scrapy.cfg 同一目录，使用 shub deploy 命令

This is scrapy中文教程.

目前的问题

在本地跑的时候仍然会出现跑200多次就被被禁ip的情况。
年前（2015）爬取airbnb好像user-agent不做修改并没有问题，年后直接被封，已经将源码的downloadmiddleware中修改useragent的插件进行修改，可以顺利爬取。
想在后续加入代理池进行尝试
控制爬取速率，时间，看能不能分时进行爬取