li-xiu-qi/PDF-to-HTML-Processor
PDF-to-HTML-Processor是一个处理pdf文件的项目,用于将PDF文件转换为HTML格式,并提取文本、图片、元数据等信息。它使用fitz和BeautifulSoup库来实现PDF的读取和HTML的生成。最终以生成器的方式输出一个个和langchain中Document类相同的对象。
PythonApache-2.0
PDF-to-HTML-Processor是一个处理pdf文件的项目,用于将PDF文件转换为HTML格式,并提取文本、图片、元数据等信息。它使用fitz和BeautifulSoup库来实现PDF的读取和HTML的生成。最终以生成器的方式输出一个个和langchain中Document类相同的对象。
PythonApache-2.0