新浪微博搜索爬虫
功能:爬取新浪微博的搜索结果,支持高级搜索中对搜索时间的限定
实现:采取selenium测试工具,模拟微博登录,结合PhantomJS/Firefox,分析DOM节点后,采用Xpath对节点信息进行获取,实现重要信息的抓取,并存储至Excel中。
环境:
1、python 2.7
2、安装selenium库
3、安装Firefox浏览器
获取的微博信息包括:博主昵称, 博主主页, 微博认证, 微博达人, 微博内容, 发布时间, 微博地址, 微博来源, 转发, 评论, 赞
详见博客:http://blog.csdn.net/destinyuan/article/details/51297528