基于行块分布函数的通用网页正文(及图片)抽取 - Python版本
Primary LanguagePython
cx-extractor 的 Python 版本,提取网页正文,添加了提取正文图片的功能。