/Auto_Extract_Crawl

开发具有一定通用性的爬虫,自动爬取给定种子库的内容并进行信息抽取。

Primary LanguagePython

Auto_Extract_Crawl

开发具有一定通用性的爬虫,自动爬取给定种子库的内容并进行信息抽取。

批量爬取 自动解析 去重 监控

对种子库中的列表页进行自动识别:利用dom tree特征进行主列表页识别,并抽取详情页URL,使用Redis进行详情页去重; 对详情页进行批量爬取;
自动解析详情页中的信息:如标题、正文、发布时间等元素,并使用MongoDB进行存储;
利用模板检测监控爬虫运行情况。