LinXueyuanStdio/LaTeX_OCR_PRO

不能复现训练结果

Closed this issue · 4 comments

HuFBH commented

你好,我在复现训练结果时遇到了问题。我使用了默认的train_full,得到的结果相差很多,以下是我的训练结果(我没有修改任何配置信息):
image

image

是哪里出问题了吗?以下是一些具体的操作过程:

操作信息:

(1)
git clone 本项目
git clone 本项目数据集:git submodule update 总是失败,下载了链接的项目代替

(2)搭建环境与验证
make small 可以跑通

(3)训练
make full:提示 No such file or directory: 'data/images_train/2050.png'

直接跑train_full:
python train.py --data=data/full/data.json --vocab=data/full/vocab.json --training=configs/training.json --model=configs/model.json --output=results/full/

可以跑通,但是不能得到展示的结果,是哪里出问题了吗?

  1. 关于 No such file or directory: 'data/images_train/2050.png'
    数据集缺少图片文件,可以自己生成补上,参考 README 的搭建环境部分。当然,训练时不用这条数据也是可以的,修改数据集的 mapping 文件,删除对应的行即可。

  2. 关于结果无法复现
    项目里的默认配置不是最优的,只是提供了一个能跑的版本供玩耍。我也不知道最优的配置到底是啥,因为调参是个玄学。如果希望获得 README 里差不多的结果,建议参考 issue 调一下参,我在其他 issue 里讲了一些调参的经验,可供参考。这个默认配置我是考虑过的,只要对模型有一点点理解,就可以修改少于5个参数,达到 README 的水平附近。

我试过的参数组合很多,有的EMS可以到60以上,但是换个数据集使用一样的参数,EMS有很大的差异。这个有至少三个原因。一是数据集有问题,二是模型有问题,三是训练方法有问题。但是,数据集确实可 以进一步清洗,模型的结构和参数也可以进一步改进,训练方法也有太大的灵活性。更不用说随机初始化随机dropout造成结果差异等等更玄学的原因,所以就算我提供我认为的好参数出来,也会出现无法复现的声音,尽管模型确实是可以达到 README 的程度的。加上本项目只是达到先进水平,可以在大部分数据上有较高的准确率,但是离最高水平还有很大的距离(据我所知,已经有EMS到80以上的模型了),给出好参数真的没有必要,还不如玩玩就好。

另外呢,我希望本项目是作为一个易读的,可供学习的,入门的,相对完善的项目,而不是用来上生产环境,或是用来挑战SOA。所以希望使用者能自己动手调参,快乐玩耍就好啦。

HuFBH commented

是的,你的建议非常有用,谢谢。
我正要来更新我这边的情况,之前发现了数据集有问题(你说明中的第一点),处理后我顺利跑通了训练。
是的,如你所说,我在训练过程中仍然遇到了“不能复现训练结果”的疑问,因为我定性思维认为展示的结果就是默认的配置,你的说明解决了我实践中的疑问。
恩,我刚从其他应用领域过来,这是一个很不错的项目:smile:,再次地,感谢你用心的答复。

你好,你知道数据集有啥问题吗?

@HuFBH 你用的是哪个数据集,im2latex 100k? 不是的话数据问题可以说下嘛,我这使用im2latex 100训练,看下有没可借鉴的地方