Crawler

The code for Crawler part is mostly done in chap01 参考如下:

面向微博网页的爬虫实现对微博内容的自动采集,抓取内容可随着被采集网页内容的更新而更新。在抓取的过程中,可实现对非相关数据能进行初步的过滤,并对数据进行本地存

储。具体设计和实现的功能包括:

1)对指定的url库进行过滤及筛选;

2)在网络中抓取相关url对应的html页面;

3)初步尝试动态网页抓取的相关问题:如自动登录、“评论”数据及“更多”微博数据的抓取等;

4)采用增量更新的方式,可以根据网页属性判断网页内容是否更新并进行更新;

5)为提高抓取效率,引入DNS解析及分布式部署。

大致过程如下:

  1.  名人机构微博URL(初始URL整理)
    
  2.  爬取规则的编写(数据结构、java多线程)java基本类,封装的jar,关键是增量更新的实现。
    
  3.  原始Web页面的存储