一个爬取微博WAP端的程序,通过关注列表收集个人、每一条微博的信息。
- python 3.6 安装方法
- MongoDB,PhantomJS
- 相关第三方库:Scrapy以及相关依赖库,Pymongo,Selenium等
- 用 selenium+PhantomJS 模拟登录weibo.cn,获取cookies
- scrapy 爬取新浪微博个人信息、微博信息
- 保存到MongoDB
- 验证码处理:检测到验证码自动弹出窗口,手动输入即可
为了防止账号被封,微博账号是淘宝买的,花了1块大洋,最后发现是直接封IP的。。。。