/html-body-extractor

《基于行块分布函数的通用网页正文抽取》的Python3实现

Primary LanguagePython

网页正文抽取

PyPI PyPI

论文《基于行块分布函数的通用网页正文抽取》的Python实现。

安装

pip install body-extractor-py3

使用方法

from body_extractor import BodyExtractor
import requests

url = 'http://md.tech-ex.com/ired/2016/47848.html'
res = requests.get(url)
extractor = BodyExtractor(res.content.decode(res.encoding))
print(extractor.content) # 抽取的正文部分
print(extractor.title)  # 抽取的title标签,即网页标题

TodoList

  • 支持url参数
  • 保留图片
  • 生成带图片的word文档