/crawlsecurity

爬取安全博客网站的文章。

Primary LanguagePython

crawlsecurity

通过Scrapy爬取网络安全相关的博客网站的文章

  1. 通过BloomFilter进行去重
  2. 使用Elasticsearch进行数据的存储
  3. 使用Kafka形成实时数据流,方便实时处理
  4. 使crontab使程序定时运行

运行环境

  • Centos 7.2
  • Python 2.7
  • Scrapy 1.3.2
  • Elasticsearch 2.4.0
  • Kafka 2.12