/jianshucode

通过scrapy框架实现对简书的全部文章爬取

Primary LanguagePython

jianshucode

简书所有文章爬取

​ 通过scrapy框架实现对简书的全部文章爬取,爬虫模版为crawl模版

​ 初始 url 为简书首页,提取文章详情页面推荐阅读模块的文章链接,实现对未在首页的文章爬取,因每篇文章都有推荐阅读模块,从而实现对所有文章的连接

​ 爬取内容为文章标题、文章内容、文章作者、阅读数、发布时间和钻的数量

​ 爬取结果存储在Mysql数据库中,存储方式有异步(Twisted)非异步两种方式,异步数据量大时采用,scrapy爬取的速度大于数据库插入的速度,当数据量大时就会出现堵塞,就需要采用异步保存