2020-03-04 新增 推荐使用puppeteer 作为爬虫 参考 新浪爬虫仓库 https://github.com/buffge/spider
config.json 是配置文件 必须要先配置好才能运行
学习地址: 慕课网 selenium 教程 开发环境: ide:Netbeans java包:selenium全家桶,json和jbdc.mysql 浏览器驱动:ie,火狐,谷歌,phantomjs(在res文件夹内)
- 打开新浪微博首页并登录 2. 跳转到你要爬取数据的人的主页
- 触发ajax将一个页面全部显示出来 4. 对每一个微博进行判断解析 只获取他本人的微博 5.如果有展开全文就点击点击一下.然后将微博内容插入数据库
- 判断是否有下一页,如果有就到下一页然后进入第四步
1.优化速度
2.phantomjs 有执行bug 其中一个查找元素会有bug会导致延时1.5s.下载还是没问题的.
3.浏览器适配
4.错误处理
5.代码冗余(不会java语言 我要摸索一下)