STC的微调实验
JansonKong opened this issue · 6 comments
你好,这个项目挺不错的,我也很感兴趣。我按照论文中参数设置,使用如下的命令训练:python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10CUDA_VISIBLE_DEVICES=0 python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10。但是训练后的,在val上的ppl收敛在29.几,模型收敛不是很理想,所以请教一下,除了以上的参数设置,是还有其他的一些参数需要设置吗?谢谢!
你好,这个项目挺不错的,我也很感兴趣。我按照论文中参数设置,使用如下的命令训练:python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10CUDA_VISIBLE_DEVICES=0 python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10。但是训练后的,在val上的ppl收敛在29.几,模型收敛不是很理想,所以请教一下,除了以上的参数设置,是还有其他的一些参数需要设置吗?谢谢!
请问您使用的是哪个模型呢 (LCCC-large吗)?您梯度累积了吗?另外您单卡的话相当于只开了batch_size 8, 梯度累计可以大一些。
我使用的是LCCC-large,梯度累计使用的是默认的64,我把Batch设置成32试试,梯度累计的大概设置多少比较合适呢,谢谢
我使用的是LCCC-large,梯度累计使用的是默认的64,我把Batch设置成32试试,梯度累计的大概设置多少比较合适呢,谢谢
默认64的话单卡也不应该才到29, 您使用的是线性学习率下降吗?
我看代码中默认的是noam,所以没有设置
我看代码中默认的是noam,所以没有设置
您按论文中的微调方法试一下呢 , noam 改成linear (“ For all the models, we linearly decay the learning rate from 6.25e-5 to 0 using the AdamW optimizer.”)。 noam是预训练的时候用的,他的warm up数需要根据STC的大小来调整一下。
好的,谢谢!!