doubanMovieCrawler,for collecting lastest movie
多线程豆瓣电影爬虫,用于爬取评分大于7的电影
爬虫结构如下 fetcher:使用httpclient进行通讯并获得页面信息
filter:用于过滤需要的信息,比如这里我过滤了评分大于7的电影
handler:用于判断是否爬虫被服务器禁止,或许服务器返回的响应吗
model:FetchedPage是用于爬行内部信息传递的载体
parser:页面内容解析或者json数据链解析,页面解析使用的jsoup,json解析是使用阿里的json解析工具类
UrlQueue:访问url的队列 VisitedUrlQueue:已访问的队列
storage:将信息存入数据库等。。。
worker:其实是一个爬虫的线程
通过CrawlerWorker来调用
例子 src/test/java中的CrawlerStarter执行看看