V2EX_Scrapy
是一只基于 V2EX API 的异步 IO 爬虫
正努力地为 V2EX 第三方社区搜索 抓取索引数据
开始使用前,请确保了解:
V2EX 关于 API 公平使用方面的规则
- [Scrapy] (http://scrapy.org/)
- [Mongodb] (http://www.mongodb.org/)
#: 安装必要 python 库
sudo pip install scrapy
sudo pip install pymongo
#: 抓取社区最新数据
scrapy crawl topic
scrapy crawl reply
参见 run.sh 中的 `cron` 注释
- [scrapy 文档] (http://doc.scrapy.org/en/latest/)
- [V友整理的 V2EX API] (https://gist.github.com/dbbbit/16a8fdbb73e627e00864)