/graduation-project

just graduation

Primary LanguagePython

毕业设计的爬虫实现

实现

所用框架为python+scrapy,前期使用的测试平台为这个(需要注册),之后打算在本地跑,存入MySQL数据库中,方便进行数据分析。

关于middlewares(中间件)的使用

pipelines.py的定义

mysql数据库实现异步存储

使用

以后再说。

  • 如果需要在网上平台进行测试,需要在 scrapy.cfg 同一目录,使用 shub deploy 命令

This is scrapy中文教程.

目前的问题

  • 在本地跑的时候仍然会出现跑200多次就被被禁ip的情况。

  • 年前(2015)爬取airbnb好像user-agent不做修改并没有问题,年后直接被封,已经将源码的downloadmiddleware中修改useragent的插件进行修改,可以顺利爬取。

  • 想在后续加入代理池进行尝试

  • 控制爬取速率,时间,看能不能分时进行爬取