分页表格识别不完整
Closed this issue · 6 comments
LunaJin-lang commented
🔎 Search before asking | 提交之前请先搜索
- I have searched the MinerU Readme and found no similar bug report.
- I have searched the MinerU Issues and found no similar bug report.
- I have searched the MinerU Discussions and found no similar bug report.
🤖 Consult the online AI assistant for assistance | 在线 AI 助手咨询
- I have consulted the online AI assistant but was unable to obtain a solution to the issue.
Description of the bug | 错误描述
项目数据集里很多表格是跨页的,请问是否可以通过调整mineru的参数与阈值的方式,来达到跨页表格的整体识别?
How to reproduce the bug | 如何复现
Operating System Mode | 操作系统类型
Linux
Operating System Version| 操作系统版本
Ubuntu 22.04
Python version | Python 版本
3.11
Software version | 软件版本 (mineru --version)
No response
Device mode | 设备模式
cuda
myhloli commented
2.2以上版本应该已经支持这种跨页表格的合并了
LunaJin-lang commented
2.2以上版本应该已经支持这种跨页表格的合并了
嗯嗯,我的版本号是2.2.0,是还要升版本吗,我记得最新的好像就是2.2.0?
myhloli commented
2.2.0应该是支持的,如果有问题可以上传一下原文档给我们测试下
LunaJin-lang commented
2.2.0应该是支持的,如果有问题可以上传一下原文档给我们测试下
由于文件是保密的,我刚看到最新版本是2.2.2,我试一下这个版本吧
maolonchen commented
分页表格的合并是是使用的LLM进行合并的吗?@myhloli
finley0066 commented
我希望还原回原来的非分页表格,太多问题了,还不如不合并啊