article_util: An HTML repository from sunxhap

python2 Python-Goose

python3 newspaper，readability，html2text（html转txt），boilerpipe

这是Python中的完全重写。该软件的目的是获取任何新闻文章或文章类型的网页，不仅提取文章的主体，而且提取所有元数据和最可能的图像候选。

有部分提取方法可根据场景重写

git clone https://github.com/grangier/python-goose.git
cd python-goose
pip install -r requirements.txt
python setup.py install

内置方法下载不到页面，通过raw_html提取

import goose
raw_html = ""
a = g.extract(raw_html=raw_html)
a.infos

安装 pip3 install --ignore-installed --upgrade newspaper3k 或 pip install newspaper3k

安装 pip install readability-lxml

基于BeautifulSoup 速度会稍微慢一些。

Raedability网站(www.readability.com)最引以为傲的就是其强大的解析引擎, 号称世界上最强大的文本解析神器. Safari中的"阅读器"功能就是用它来实现的! 他们还提供了API可以调用解析器的功能。

具体情况待测

只能解析出正文

newspaper ，goose， readability 对于提取都有一定的偏差，可根据场景重写底层方法

都消耗大量cpu，

sunxhap/article_util