STC的微调实验

Question

STC的微调实验

JansonKong opened this issue 4 years ago · 6 comments

你好，这个项目挺不错的，我也很感兴趣。我按照论文中参数设置，使用如下的命令训练：python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10CUDA_VISIBLE_DEVICES=0 python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10。但是训练后的，在val上的ppl收敛在29.几，模型收敛不是很理想，所以请教一下，除了以上的参数设置，是还有其他的一些参数需要设置吗？谢谢！

Answer 1 · 2020-09-07T07:18:49.000Z

你好，这个项目挺不错的，我也很感兴趣。我按照论文中参数设置，使用如下的命令训练：python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10CUDA_VISIBLE_DEVICES=0 python train.py --pretrained --model_checkpoint ./models/ --data_path data/STC.json --lr 6.25e-5 --train_batch_size 8 --n_epochs 10。但是训练后的，在val上的ppl收敛在29.几，模型收敛不是很理想，所以请教一下，除了以上的参数设置，是还有其他的一些参数需要设置吗？谢谢！

请问您使用的是哪个模型呢（LCCC-large吗）？您梯度累积了吗？另外您单卡的话相当于只开了batch_size 8，梯度累计可以大一些。

Answer 2 · 2020-09-07T07:24:03.000Z

我使用的是LCCC-large，梯度累计使用的是默认的64，我把Batch设置成32试试，梯度累计的大概设置多少比较合适呢，谢谢

Answer 3 · 2020-09-07T07:27:52.000Z

我使用的是LCCC-large，梯度累计使用的是默认的64，我把Batch设置成32试试，梯度累计的大概设置多少比较合适呢，谢谢

默认64的话单卡也不应该才到29，您使用的是线性学习率下降吗？

Answer 4 · 2020-09-07T07:31:08.000Z

我看代码中默认的是noam，所以没有设置

Answer 5 · 2020-09-07T07:33:55.000Z

我看代码中默认的是noam，所以没有设置

您按论文中的微调方法试一下呢 , noam 改成linear (“ For all the models, we linearly decay the learning rate from 6.25e-5 to 0 using the AdamW optimizer.”)。 noam是预训练的时候用的，他的warm up数需要根据STC的大小来调整一下。

Answer 6 · 2020-09-07T07:35:56.000Z

好的，谢谢！！