db++在totaltext数据集上的评测
wangjingyeye opened this issue · 4 comments
作者您好,我在totaltext数据集上评测db++源码时(使用官方提供的在totaltext数据集上的resnet50训练模型),测试的结果为84.9(shapely的版本为1.8.0),这与论文report的结果86.0似乎有着一定的差距。
测试步骤:
1)修改config文件,将experiments/ASF/td500_resnet50_deform_thre_asf.yaml中的'experiments/seg_detector/base_td500.yaml'改成'experiments/seg_detector/base_totaltext.yaml'
2)执行命令:
CUDA_VISIBLE_DEVICES=0 python eval.py experiments/ASF/td500_resnet50_deform_thre_asf.yaml --resume path-to-model-directory/totaltext_resnet50 --polygon --box_thresh 0.6
评测结果为:
precision : 0.878685 (300)
recall : 0.821509 (300)
fmeasure : 0.849136 (1)
以此同时,我使用官方提供的SynthText数据集的预训练模型在totaltext上进行微调,步骤如下:
1)修改config文件,即将experiments/ASF/td500_resnet50_deform_thre_asf.yaml中的'experiments/seg_detector/base_td500.yaml'改成'experiments/seg_detector/base_totaltext.yaml'
2)执行命令:
CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py experiments/ASF/td500_resnet50_deform_thre_asf.yaml --num_gpus 4
训练出的最优模型的结果为:
precision : 0.875239 (300)
recall : 0.827384 (300)
fmeasure : 0.850639 (1)
这个结果与上述测试的结果一致,都是85%左右,而db++论文在totaltext数据集上report的结果为86.0%
这似乎存在一定的问题,是否是我在训练/评测时使用的config文件的问题,还是其他一些的错误操作?
感谢作者在百忙之中抽空回复~
作者您好,我在totaltext数据集上评测db++源码时(使用官方提供的在totaltext数据集上的resnet50训练模型),测试的结果为84.9(shapely的版本为1.8.0),这与论文report的结果86.0似乎有着一定的差距。
测试步骤: 1)修改config文件,将experiments/ASF/td500_resnet50_deform_thre_asf.yaml中的'experiments/seg_detector/base_td500.yaml'改成'experiments/seg_detector/base_totaltext.yaml' 2)执行命令: CUDA_VISIBLE_DEVICES=0 python eval.py experiments/ASF/td500_resnet50_deform_thre_asf.yaml --resume path-to-model-directory/totaltext_resnet50 --polygon --box_thresh 0.6
评测结果为: precision : 0.878685 (300) recall : 0.821509 (300) fmeasure : 0.849136 (1)
以此同时,我使用官方提供的SynthText数据集的预训练模型在totaltext上进行微调,步骤如下: 1)修改config文件,即将experiments/ASF/td500_resnet50_deform_thre_asf.yaml中的'experiments/seg_detector/base_td500.yaml'改成'experiments/seg_detector/base_totaltext.yaml' 2)执行命令: CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py experiments/ASF/td500_resnet50_deform_thre_asf.yaml --num_gpus 4
训练出的最优模型的结果为: precision : 0.875239 (300) recall : 0.827384 (300) fmeasure : 0.850639 (1)
这个结果与上述测试的结果一致,都是85%左右,而db++论文在totaltext数据集上report的结果为86.0% 这似乎存在一定的问题,是否是我在训练/评测时使用的config文件的问题,还是其他一些的错误操作?
感谢作者在百忙之中抽空回复~
我也是这个结果 ,似乎需要加--polygon的数据都得不到论文结果 icdar2015和td500是可以的,不知道是不是评价指标里dontCare的影响 这些数据似乎是没标注dontCare 不知道作者是怎么处理的
我也遇到同样的情况,这个问题你解决了吗?
@fxwfzsxyq 你好,我在icdar2015数据集上测试的结果是precision:0.9031, recall:0.7905, fmeasure:0.8431; 将box_thresh设置为0.55时,测试结果为:precision:0.8854, recall:0.8040, fmeasure:0.8427。recall和fmeasure均比论文中给出的数据低2个百分点以上。请问,你在icdar2015数据集上测试的结果和DB++论文中公布的结果是一致的吗?
这个评测指标很魔幻,用官网的权重跑下img1000.jpg这张图,出来的结果很差,甚至restaurant这个单词被分成了两个部分,最后评测完,recall和precision都是1.