知乎爬虫

爬取点赞数最多的回答、关注数最多的话题。

技术栈:

  • Scrapy(爬虫)
  • Jieba(分词,用于爬取结果的词频分析)
  • Bloom Filter(用于过滤重复的话题)
  • webpack
  • mongodb
  • node.js
  • express
  • mustache

运行

爬虫

scrapy crawl [spider_name] --nolog

spider_name: MostFollowTopicsSpider 或 MostLikeAnswersSpider

Web

cd web
node server/main.js