spiderSina

2020-03-04 新增推荐使用puppeteer 作为爬虫参考新浪爬虫仓库 https://github.com/buffge/spider

selenium 是一个浏览器自动化测试框架.可以模拟用户的所有操作.

config.json 是配置文件必须要先配置好才能运行

学习地址: 慕课网 selenium 教程开发环境: ide:Netbeans java包:selenium全家桶,json和jbdc.mysql 浏览器驱动:ie,火狐,谷歌,phantomjs(在res文件夹内)

打开新浪微博首页并登录 2. 跳转到你要爬取数据的人的主页

触发ajax将一个页面全部显示出来 4. 对每一个微博进行判断解析只获取他本人的微博 5.如果有展开全文就点击点击一下.然后将微博内容插入数据库

判断是否有下一页,如果有就到下一页然后进入第四步

1.优化速度
2.phantomjs 有执行bug 其中一个查找元素会有bug会导致延时1.5s.下载还是没问题的.
3.浏览器适配
4.错误处理
5.代码冗余(不会java语言 我要摸索一下)