li-xiu-qi/PDF-to-HTML-Processor

PDF-to-HTML-Processor是一个处理pdf文件的项目，用于将PDF文件转换为HTML格式，并提取文本、图片、元数据等信息。它使用fitz和BeautifulSoup库来实现PDF的读取和HTML的生成。最终以生成器的方式输出一个个和langchain中Document类相同的对象。

PythonApache-2.0

Stargazers