/BeiKeZuFangSpider

贝壳租房爬虫(基于Scrapy)

Primary LanguagePythonMIT LicenseMIT

贝壳租房爬虫(Scrapy)


问题反馈

在使用中有任何问题,可以反馈给我,以下联系方式跟我交流

开发环境

  • 系统版本: Windows 10 x64

  • Python版本: Python 3.6.4

  • 编译器: Pycharm 2018.2.3 x64


项目依赖

  • Scrapy: 1.5.0

  • pymongo: 3.7.1

  • lxml: 4.2.4

  • requests: 2.20.1

  • pykakfa: 2.8.0


启动方式

  • EXE启动(下载release里面的exe --- 等待打包) ---> 暂时无法打包(求解决!!!!!有打包过的给个issue!)

  • 命令启动(clone项目) --- 启动方法在cmdline_start_spider.py


未来的开发方向

  1. 添加查询规则(通过配置规则进行爬取) -- 具体方案待定

2. 加入Kafka对数据进行订阅


其他说明以及功能说明

  • 如果Windows下的开发,运行Scrapy出现找不到win32api模块, 请安装libs下的exe文件(64位系统)
  • 增加CSV导出功能
    • 可以在配置文件中配置是否导出到CSV中(默认使用CSV导出)
    • 可以自定义路径(默认在根目录ExportData中)
    • 在判断MongoDB没有配置或者配置后首次连接无法连上, 则自动切换到CSV导出
  • 增加了Kafka pipeline的支持.(Consumer模块复杂逻辑需要自行编写, BeiKeZuFangSpider/static下提供了一个example进行参考)