/DIS_MeituanReptile

分布式美团外卖小爬虫---项目暂停一段时间

Primary LanguagePython

分布式美团外卖小爬虫 ,利用RabbitMQ消息队列

路漫漫其修远兮,吾将上下而求索

小说明

  • 第一次比较大的在github写一个项目,一切都在摸索中。当然这个项目也是第一次接触分布式爬虫。
  • 整体思路是RabbitMQ+多实例+多线程搞定。
  • selenium + Phantomjs
  • 预期目标是,美团数据在2个小时内完全抓取完(估算了一下,,千万级。。。),这个时间是我瞎定的,美团对于IP的限制太可怕了。
  • IP这里我用的代理是阿布云
  • 具体实现方式和具体处理,还在摸索中......,如有大神路过还望指点....
  • 项目思路目前不是太明朗,还在思考中。有时间了,我把我的思路好好总结写一写

目前进度:

  • 获取美团全国城市列表,并以JSON格式添加到远程RabbitMQ服务器队列
  • 从队列中获取城市列表,解析该城市美团店家分类
  • 添加网页处理类,用来解析各种分类的店铺
  • 完善各种异常提示, 及其处理
  • 添加数据库操作---留个坑明天完成(端午一个人~~默默留在实验室解决坑~~话说这几天坑有点多)
  • 数据库操作安装MySQLdb有坑!有问题的同学可以看一下我的博客 传送门刘鑫的博客
  • 利用mysql数据库感觉有点问题,利用python的mysqldb包来试了试。感觉这TM有点慢啊,,