THUNLP-MT/THUMT

使用IWSLT17中-英数据集,在训练过程中BLEU持续升高,没有收敛的迹象,但模型在测试集上的泛化能力很差

edwardelric1202 opened this issue · 1 comments

使用的是IWSLT17中-英数据集,模型为Transformer,在训练过程中BLEU值一直在升高没有收敛,请问这是什么原因,与超参数的设置有关吗?
INFO:tensorflow:BLEU at step 10000: 0.110296
INFO:tensorflow:BLEU at step 20000: 0.144964
INFO:tensorflow:BLEU at step 30000: 0.178070
INFO:tensorflow:BLEU at step 40000: 0.198967
INFO:tensorflow:BLEU at step 50000: 0.222250
INFO:tensorflow:BLEU at step 60000: 0.245278
INFO:tensorflow:BLEU at step 70000: 0.266681
INFO:tensorflow:BLEU at step 80000: 0.286975
INFO:tensorflow:BLEU at step 90000: 0.308338
INFO:tensorflow:BLEU at step 100000: 0.324188
`

初始参数设置如下:
--parameters=batch_size=2048,device_list=[0],train_steps=100000,eval_steps=2000,update_cycle=4

在测试集(newstest)上,只有11左右的BLEU值。

首先,不知道这里开发集用的是什么。IWSLT数据集是口语的数据集,并且规模较小,newstest是新闻的数据集,这两个领域差距很大,newstest上BLEU低是可以理解的。训练过程中的BLEU一般是算的BPE后的BLEU而非tokenize后的BLEU,这个值一般会偏高。