分布式美团外卖小爬虫 ,利用RabbitMQ消息队列
路漫漫其修远兮,吾将上下而求索
小说明
- 第一次比较大的在github写一个项目,一切都在摸索中。当然这个项目也是第一次接触分布式爬虫。
- 整体思路是RabbitMQ+多实例+多线程搞定。
- selenium + Phantomjs
- 预期目标是,美团数据在2个小时内完全抓取完(估算了一下,,千万级。。。),这个时间是我瞎定的,美团对于IP的限制太可怕了。
- IP这里我用的代理是阿布云
- 具体实现方式和具体处理,还在摸索中......,如有大神路过还望指点....
- 项目思路目前不是太明朗,还在思考中。有时间了,我把我的思路好好总结写一写
目前进度:
- 获取美团全国城市列表,并以JSON格式添加到远程RabbitMQ服务器队列
- 从队列中获取城市列表,解析该城市美团店家分类
- 添加网页处理类,用来解析各种分类的店铺
- 完善各种异常提示, 及其处理
- 添加数据库操作---留个坑明天完成(端午一个人~~默默留在实验室解决坑~~话说这几天坑有点多)
- 数据库操作安装MySQLdb有坑!有问题的同学可以看一下我的博客 传送门刘鑫的博客
- 利用mysql数据库感觉有点问题,利用python的mysqldb包来试了试。感觉这TM有点慢啊,,