jianshu

通过scrapy框架，结合selenium+Chromedriver爬取AJAX内容，实现简书全部文章及其相关信息的爬取，并存储到mysql中。使用crawlspider创建爬虫项目，定义rule，爬取简书上的全部文章。使用xpath进行数据解析通过pipeline将数据存储到mysql 使用twisted进行异步存储数据到mysql提高爬取效率

cogitozz/jianshu

jianshu