doubanMovieCrawler

doubanMovieCrawler,for collecting lastest movie

多线程豆瓣电影爬虫，用于爬取评分大于7的电影

爬虫结构如下 fetcher：使用httpclient进行通讯并获得页面信息

filter：用于过滤需要的信息，比如这里我过滤了评分大于7的电影

handler：用于判断是否爬虫被服务器禁止，或许服务器返回的响应吗

model：FetchedPage是用于爬行内部信息传递的载体

parser：页面内容解析或者json数据链解析，页面解析使用的jsoup，json解析是使用阿里的json解析工具类

UrlQueue：访问url的队列 VisitedUrlQueue：已访问的队列

storage：将信息存入数据库等。。。

worker：其实是一个爬虫的线程

通过CrawlerWorker来调用

例子 src/test/java中的CrawlerStarter执行看看

h455952294/doubanMovieCrawler