thu-coai/CDial-GPT

STC的微调实验

JansonKong opened this issue · 6 comments

你好,这个项目挺不错的,我也很感兴趣。我按照论文中参数设置,使用如下的命令训练:python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10CUDA_VISIBLE_DEVICES=0 python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10。但是训练后的,在val上的ppl收敛在29.几,模型收敛不是很理想,所以请教一下,除了以上的参数设置,是还有其他的一些参数需要设置吗?谢谢!

你好,这个项目挺不错的,我也很感兴趣。我按照论文中参数设置,使用如下的命令训练:python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10CUDA_VISIBLE_DEVICES=0 python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10。但是训练后的,在val上的ppl收敛在29.几,模型收敛不是很理想,所以请教一下,除了以上的参数设置,是还有其他的一些参数需要设置吗?谢谢!

请问您使用的是哪个模型呢 (LCCC-large吗)?您梯度累积了吗?另外您单卡的话相当于只开了batch_size 8, 梯度累计可以大一些。

我使用的是LCCC-large,梯度累计使用的是默认的64,我把Batch设置成32试试,梯度累计的大概设置多少比较合适呢,谢谢

我使用的是LCCC-large,梯度累计使用的是默认的64,我把Batch设置成32试试,梯度累计的大概设置多少比较合适呢,谢谢

默认64的话单卡也不应该才到29, 您使用的是线性学习率下降吗?

我看代码中默认的是noam,所以没有设置

我看代码中默认的是noam,所以没有设置

您按论文中的微调方法试一下呢 , noam 改成linear (“ For all the models, we linearly decay the learning rate from 6.25e-5 to 0 using the AdamW optimizer.”)。 noam是预训练的时候用的,他的warm up数需要根据STC的大小来调整一下。

好的,谢谢!!