/jianshu

通过scrapy框架,结合selenium+Chromedriver爬取AJAX内容,实现同步/异步爬取简书全部文章及其相关信息,并存储到mysql中。

Primary LanguagePython

jianshu

通过scrapy框架,结合selenium+Chromedriver爬取AJAX内容,实现简书全部文章及其相关信息的爬取,并存储到mysql中。 使用crawlspider创建爬虫项目,定义rule,爬取简书上的全部文章。 使用xpath进行数据解析 通过pipeline将数据存储到mysql 使用twisted进行异步存储数据到mysql提高爬取效率