Crawler

The code for Crawler part is mostly done in chap01 参考如下:

面向微博网页的爬虫实现对微博内容的自动采集，抓取内容可随着被采集网页内容的更新而更新。在抓取的过程中，可实现对非相关数据能进行初步的过滤，并对数据进行本地存

储。具体设计和实现的功能包括：

1）对指定的url库进行过滤及筛选；

2）在网络中抓取相关url对应的html页面；

3）初步尝试动态网页抓取的相关问题：如自动登录、“评论”数据及“更多”微博数据的抓取等；

4）采用增量更新的方式，可以根据网页属性判断网页内容是否更新并进行更新；

5）为提高抓取效率，引入DNS解析及分布式部署。

大致过程如下：

 名人机构微博URL(初始URL整理)

 爬取规则的编写(数据结构、java多线程)java基本类，封装的jar,关键是增量更新的实现。

YvonneTian2016/Crawler