/HouseInfoSpiderDistributed

基于Scrapy-Redis框架的分布式爬虫

Primary LanguagePython

房屋信息爬虫

基于Scrapy-Redis框架的分布式爬虫

信息来源

中房网
房天下
安居客

数据格式

经纬度小区名小区位置房屋面积朝向装修程度楼层
户型单价首付住宅类型总价标题房屋描述月供

项目基本说明

  • 这是我学校团队的一个小项目
  • 去重采用Bloomfilter算法
  • 防Ban,采用更换User-agent和禁cookies
  • 此次演示只是在单机上面执行,分布式请自己部署

主要运行环境

  • Windows7及以上
  • Python27
  • Scrapy1.2以上
  • Scrapy-Redis相关模块
  • bs4
  • mongodb
  • redis

运行前

  • 在setting.py中配置数据库和一些其他的设置

运行

  • 启动Mongodb服务
  • 启动Redis服务
  • 启动lpush.py
  • 启动crawlall.py

注意

   lpush.py是压入初始URL到Redis数据库中,不要重复执行。 在spiders文件夹下address.py中,填写自己的百度地图访问AK。

运行结果截图

  • 运行时: image image
  • Mongodb数据库中的效果: image

最后

  • 这是16年12月份左右时完成的,有问题欢迎提issues,不定期更新。