python2 Python-Goose
python3 newspaper,readability,html2text(html转txt),boilerpipe
这是Python中的完全重写。该软件的目的是获取任何新闻文章或文章类型的网页,不仅提取文章的主体,而且提取所有元数据和最可能的图像候选。
有部分提取方法可根据场景重写
git clone https://github.com/grangier/python-goose.git
cd python-goose
pip install -r requirements.txt
python setup.py install
内置方法下载不到页面,通过raw_html提取
import goose
raw_html = ""
a = g.extract(raw_html=raw_html)
a.infos
安装 pip3 install --ignore-installed --upgrade newspaper3k 或 pip install newspaper3k
python2 参考 https://github.com/grangier/python-goose
安装 pip install readability-lxml
基于BeautifulSoup 速度会稍微慢一些。
Raedability网站(www.readability.com)最引以为傲的就是其强大的解析引擎, 号称世界上最强大的文本解析神器. Safari中的"阅读器"功能就是用它来实现的! 他们还提供了API可以调用解析器的功能。
具体情况待测
使用参考 https://github.com/misja/python-boilerpipe
只能解析出正文
newspaper ,goose, readability 对于提取都有一定的偏差, 可根据场景重写底层方法
都消耗大量cpu,
1、https://piaosanlang.gitbooks.io/spiders/content/10day/section10.1.html
2、https://github.com/grangier/python-goose
3、https://github.com/codelucas/newspaper
4、https://blog.csdn.net/mouday/article/details/87942995 使用newspaper解析新闻页面信息