Auto_Extract_Crawl

开发具有一定通用性的爬虫，自动爬取给定种子库的内容并进行信息抽取。

对种子库中的列表页进行自动识别:利用dom tree特征进行主列表页识别，并抽取详情页URL，使用Redis进行详情页去重；对详情页进行批量爬取；
自动解析详情页中的信息：如标题、正文、发布时间等元素，并使用MongoDB进行存储；
利用模板检测监控爬虫运行情况。