opendatalab/MinerU

Transforms complex documents like PDFs into LLM-ready markdown/JSON for your Agentic workflows.

PythonAGPL-3.0

Pinned issues

🚀 Stuck? Get Faster Help with the DeepWiki AI Assistant!

#2928 opened 4 months ago by myhloli

Closed0

🚀 遇到问题？试试 DeepWiki AI 助手，更快获得解答！

#2929 opened 4 months ago by myhloli

Closed5

Issues

解析pdf表格出现内容缺失，格式错误
#3595 opened a month ago by freedomlxx
1
官方在线演示：vlm-vllm-async-engine模式，pdf无线表格被识别为空表格
#3612 opened a month ago by lc345
4
跨页表格合并问题
#3613 opened a month ago by Hlizzzzz
4
新版本执行错误
#3603 opened a month ago by userGuo-o
9
minerU2.5报错TypeError: Qwen2VLForConditionalGeneration.__init__() got an unexpected keyword argument 'dtype
#3575 opened a month ago by l878619717
10
使用mineru-api 在pipeline模式下转完后gpu显存没有释放
#3617 opened a month ago by samwellshi
3
章节部分的点没有识别出来，是什么原因？比如5.2.1.6，识别成了5216
#3611 opened a month ago by intothephone
1
2.5.3版本magika文件类型识别错误
#3583 opened a month ago by PascalZh
2
pdf incorrectly rejected as .ai file
#3605 opened a month ago by DarrenCook
5
解析pdf文件直接卡住了
#3600 opened a month ago by freedomlxx
4
mineru2.5无法用demo.py文件运行
#3598 opened a month ago by ChineseWTAO
2
ModuleNotFoundError: No module named 'mineru_vl_utils'
#3596 opened a month ago by Arvin-928
1
Wrong reading order
#3591 opened a month ago by AtiqurRahmanAni
1
为什么使用vllm推理时，只识别了文本内容但是表格没有输出标签
#3590 opened a month ago by fxbzyj
1
正文内容缺失
#3588 opened a month ago by DengHao97
4
MinerU PDF页数检测错误网页版和客户端均可稳定复现
#3586 opened a month ago by lNeverl
6
2.5.3版本解析后表格中部分内容丢失
#3587 opened a month ago by AmyShuiOrBing
1
离线部署后无法正常解析
#3584 opened a month ago by chetaofeng
2
在5090上启用 vllm-engine报错 : Engine core initialization failed.
#3582 opened 2 months ago by refrainD
4
gradio卡在了uploading
#3581 opened 2 months ago by bondijoe27
3
LiteLLM 使用配置
#3580 opened 2 months ago by peiyaoli
1
cuda 12.4 有支持的docker 镜像吗
#3576 opened 2 months ago by SuperZhanggy
2
使用Gradio界面解析PDF文件，PDF预览界面为空
#3577 opened 2 months ago by niboliang
2
vlm模式网页版与本地部署识别效果差异大；pipeline模式图片标题位置识别错误
#3568 opened 2 months ago by calwd0mn
6
vlm 2.5 版本的版式分析容易将海报、票据的title识别成header
#3570 opened 2 months ago by LRHstudy
1
无法识别和文本块处于同一行的加粗黑体小标题
#3530 opened 2 months ago by fndmyyy
2
FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead.
#3566 opened 2 months ago by shiiuen01
1
在content_list.json跨页表格的逻辑存在诸多问题
#3561 opened 2 months ago by finley0066
3
分页表格识别不完整
#3476 opened 2 months ago by LunaJin-lang
6
Hallucination for tables
#3487 opened 2 months ago by weissenbacherpwc
2
昇腾910B + aarch64 启动mineru后，解析速度很慢
#3521 opened 2 months ago by penond
2
昇腾910b，mineru 2.5.0 + pipeline 搭配哪个版本的torch_npu?
#3528 opened 2 months ago by penond
1
vlm-sglang-engine 推理字符级重复现象
#3525 opened 2 months ago by DaiJianghai
7
CUDA12.4 not support 2.5.2
#3543 opened 2 months ago by kevinhonor
5
无法识别图片中表格及内容
#3536 opened 2 months ago by iicaicai
3
[2.5.2][mineru-api][VLM][vllm-async-engine] Crash in vLLM
#3541 opened 2 months ago by philippebourcier
1
Error information show in Gradio WebUI
#3540 opened 2 months ago by Simonqujian78
3
内存占用过高
#3538 opened 2 months ago by zsytm
5
VLM解析化学公式语法错误
#3539 opened 2 months ago by Doge2077
1
数学公式出现多余的 '-' 符号
#3531 opened 2 months ago by Doge2077
4
带点号的行间公式解析幻觉
#3524 opened 2 months ago by Rundong-Li
1
Unordered list was detected as text block in VLM mode
#3522 opened 2 months ago by Doge2077
1
mineru启动后，MFR Predict 的进度始终卡在 0% 挂代理也不行
#3494 opened 2 months ago by penond
2
昇腾910B + aarch64架构应该用什么方式部署mineru？
#3485 opened 2 months ago by penond
2
Repeated escape of '<' '>' symbols in html table
#3520 opened 2 months ago by Doge2077
2
使用celery的线程模式, 批量进行pdf解析时, PDFium 存在线程安全问题
#3484 opened 2 months ago by Isfate
2
表格被识别为图片并按照图片返回（markdown 图片标签）
#3482 opened 2 months ago by wozai604
3
依赖库报错：Pure virtual function called
#3481 opened 2 months ago by cq-ldg
1
依赖库报错：Pure virtual function called
#3480 opened 2 months ago by cq-ldg
1
pipeline/vlm模式均无法正确定位包含化学结构式的表格
#3478 opened 2 months ago by sralvins
5