jianshucode

通过scrapy框架实现对简书的全部文章爬取，爬虫模版为crawl模版

初始 url 为简书首页，提取文章详情页面推荐阅读模块的文章链接，实现对未在首页的文章爬取，因每篇文章都有推荐阅读模块，从而实现对所有文章的连接

爬取内容为文章标题、文章内容、文章作者、阅读数、发布时间和钻的数量

爬取结果存储在Mysql数据库中，存储方式有异步(Twisted)和非异步两种方式，异步数据量大时采用，scrapy爬取的速度大于数据库插入的速度，当数据量大时就会出现堵塞，就需要采用异步保存

scarecr0w7/jianshucode