/doubanMovieCrawler

doubanMovieCrawler,for collecting lastest movie

Primary LanguageJava

doubanMovieCrawler

doubanMovieCrawler,for collecting lastest movie

多线程豆瓣电影爬虫,用于爬取评分大于7的电影

爬虫结构如下 fetcher:使用httpclient进行通讯并获得页面信息

filter:用于过滤需要的信息,比如这里我过滤了评分大于7的电影

handler:用于判断是否爬虫被服务器禁止,或许服务器返回的响应吗

model:FetchedPage是用于爬行内部信息传递的载体

parser:页面内容解析或者json数据链解析,页面解析使用的jsoup,json解析是使用阿里的json解析工具类

UrlQueue:访问url的队列 VisitedUrlQueue:已访问的队列

storage:将信息存入数据库等。。。

worker:其实是一个爬虫的线程

通过CrawlerWorker来调用

例子 src/test/java中的CrawlerStarter执行看看