/webPageProduce

通用web新闻文本提取

Primary LanguageC++

webPageProduce

通用web新闻文本提取,

为了解决大量模版适配

标签文本及层次特征聚类的网页正文提取方法:

a、网页标签预处理(Done)

b、预处理后网页Html标签修复(Done)

c、标签特性选择并提取标签特征向量(Done)

d、聚类算法进行特征聚类,确定正文簇(Done)

e、正文簇内标签经验性调整(Done)

f、正文簇内正文提取并存储(Done)