/crawl-xiaohongshu

微量爬取小红书数据,多了就崩了,浅尝辄止

Primary LanguagePython

用selenium伪装真实浏览器爬取小红书的文章。大概怕了一两百条这个脚本就会崩溃,至于问题也没有找到,因为转战用scrapy框架了。

数据库请连接你自己的,记得修改。

代理池也请用自己的,没有的话可以用freeProxy项目里的爬取一个下来。然后装进去用。

为什么不用PhantomJS?
因为谷歌已经出了自己的无头浏览器,只需要给他加一个headless参数就可以了。不过我使用之后,一条数据都爬取不到,不知道是什么被检测到了,毕竟一个真实的浏览器需要用到的参数可不少。

这是一个沿着一个连接递归爬取下去的爬虫,超过几层可能就会爬取与你想要的数据不相关的数据,所以可以自己添加层数,也挺简单的。这是深度优先遍历。想要广度优先,可以尝试把第一层爬取的链接都添加到一个数组当中去。

延迟爬取直接用的是time.sleep,可以对其修改成隐式等待,或者显示等待。