The code for Crawler part is mostly done in chap01 参考如下:
面向微博网页的爬虫实现对微博内容的自动采集,抓取内容可随着被采集网页内容的更新而更新。在抓取的过程中,可实现对非相关数据能进行初步的过滤,并对数据进行本地存
储。具体设计和实现的功能包括:
1)对指定的url库进行过滤及筛选;
2)在网络中抓取相关url对应的html页面;
3)初步尝试动态网页抓取的相关问题:如自动登录、“评论”数据及“更多”微博数据的抓取等;
4)采用增量更新的方式,可以根据网页属性判断网页内容是否更新并进行更新;
5)为提高抓取效率,引入DNS解析及分布式部署。
大致过程如下:
-
名人机构微博URL(初始URL整理)
-
爬取规则的编写(数据结构、java多线程)java基本类,封装的jar,关键是增量更新的实现。
-
原始Web页面的存储