scrapy-demos

我存储的数据库采用的是 MySQL ,如果要直观运行效果，只需要在settings.py中注释掉 MySQLStorePipeline即可。用scrapy crawl spiderName来执行爬虫，会自动将得到的结果存储在ans.json中
hupu 里是最基本的Spider类的使用。抓取了 虎扑论坛 上热门点亮回复
daily_zhihu 和 v2ex 则都是抓取 UGC 内容
douban 采用了一些 pythonic 的技巧，用yield来生成持续的链接。同时添加了下载图片的功能。抓取豆瓣书籍数据
TMT 和 Kr 是CrawlSpider类的典型使用。可以在rules里看到follow 和 callback的用法。抓取了 36Kr 和钛媒体的Top文章
jd 和 vip 抓取的是京东和唯品会的数据。其中为了测试用，唯品会抓取的是移动版'm.vip.com'。要抓取京东中不同种类的商品数据，需要根据爬虫名来运行不同的爬虫。暂时还存在的不足是无法抓取动态数据，对于由AJax反馈的 json 无能为力。正在学习 JavaScript 中，一些可能的解决方法包括：

luckyerdog/scrapy-demos