chenrensong/HtmlExtractor

支持通用网页以及百度智能小程序HTML信息提取，能够自动提取 Title、Content、PublishTime 等字段

C#

HtmlExtractor

支持通用网页以及百度智能小程序HTML信息提取，能够提取 Content、Title、PublishTime 等字段，项目核心代码基于stanzhai的Html2Article进行改造

无需XPath即可提取网页meta信息

Content基于陈鑫的《基于行块分布函数的通用网页正文抽取算法》匹配，部分正文可提取出XPath
Title采用正则匹配
PublishTime采用正则匹配

string html = "<html>....</html>";
var meta = Html.Extract(html);

项目依赖

HtmlAgilityPack >= 1.9.1

许可和引用

依照Apache 2.0许可发布
Html2ArticleApache 2.0许可