论文《基于行块分布函数的通用网页正文抽取》的Python实现。
pip install body-extractor-py3
from body_extractor import BodyExtractor
import requests
url = 'http://md.tech-ex.com/ired/2016/47848.html'
res = requests.get(url)
extractor = BodyExtractor(res.content.decode(res.encoding))
print(extractor.content) # 抽取的正文部分
print(extractor.title) # 抽取的title标签,即网页标题
- 支持url参数
- 保留图片
- 生成带图片的word文档