支持通用网页以及百度智能小程序HTML信息提取,能够提取 Content、Title、PublishTime 等字段,项目核心代码基于stanzhai的Html2Article进行改造
- Content基于陈鑫的《基于行块分布函数的通用网页正文抽取算法》匹配,部分正文可提取出XPath
- Title采用正则匹配
- PublishTime采用正则匹配
string html = "<html>....</html>";
var meta = Html.Extract(html);
- HtmlAgilityPack >= 1.9.1
- 依照Apache 2.0许可发布
- Html2ArticleApache 2.0许可