opendatalab/MinerU

分页表格识别不完整

Closed this issue · 6 comments

🔎 Search before asking | 提交之前请先搜索

  • I have searched the MinerU Readme and found no similar bug report.
  • I have searched the MinerU Issues and found no similar bug report.
  • I have searched the MinerU Discussions and found no similar bug report.

🤖 Consult the online AI assistant for assistance | 在线 AI 助手咨询

Description of the bug | 错误描述

项目数据集里很多表格是跨页的,请问是否可以通过调整mineru的参数与阈值的方式,来达到跨页表格的整体识别?

How to reproduce the bug | 如何复现

Operating System Mode | 操作系统类型

Linux

Operating System Version| 操作系统版本

Ubuntu 22.04

Python version | Python 版本

3.11

Software version | 软件版本 (mineru --version)

No response

Device mode | 设备模式

cuda

2.2以上版本应该已经支持这种跨页表格的合并了

2.2以上版本应该已经支持这种跨页表格的合并了
嗯嗯,我的版本号是2.2.0,是还要升版本吗,我记得最新的好像就是2.2.0?

2.2.0应该是支持的,如果有问题可以上传一下原文档给我们测试下

2.2.0应该是支持的,如果有问题可以上传一下原文档给我们测试下

由于文件是保密的,我刚看到最新版本是2.2.2,我试一下这个版本吧

分页表格的合并是是使用的LLM进行合并的吗?@myhloli

我希望还原回原来的非分页表格,太多问题了,还不如不合并啊