关于自定义数据微调实验的疑问

Question

关于自定义数据微调实验的疑问

coranholmes opened this issue 4 years ago · 4 comments

我先试了试用STC数据集微调，因为只是想试着跑通一下所以就跑了1个epoch在单张2080Ti，一开始预估的时间是17:50:30，最后实际跑了28h左右……

在STC数据集上训练的语句是

python train.py --pretrained --model_checkpoint ./models/LCCD_GPT/ --data_path data/STC/STC.json --scheduler linear --n_epochs 1

然后我就开始在自己的数据上（用于训练的json文件大小才2M左右）训练5个epoch，然后我发觉它这个预估时间(17:31:46)怎么还跟我训练STC数据集差不多呢？我自己的数据集应该小了很多啊……而且我发觉我就算改成训练1个epoch，总的epoch数好像不变永远是2195633，预估时间也一直是17个小时左右……不知道是不是我哪里理解错了，请问是怎么回事呢？

在自定义数据集上训练5 epoch的语句是

python train.py --pretrained --model_checkpoint ./models/LCCD_GPT/ --data_path data/custom_train.json --scheduler linear --n_epochs 5

在自定义数据集上1 epoch的语句是

python train.py --pretrained --model_checkpoint ./models/LCCD_GPT/ --data_path data/custom_train.json --scheduler linear --n_epochs 1

Answer 1 · 2020-10-03T08:21:12.000Z

初次运行时脚本会保存数据tokenized后的cache，更换数据后，如未删除原cache，代码会自动读取原cache。

Answer 2 · 2020-10-03T08:29:12.000Z

初次运行时脚本会保存数据tokenized后的cache，更换数据后，如未删除原cache，代码会自动读取原cache。

啊！那请问cash是在哪里呀？找了一下似乎没找到啊_(:з」∠)_

Answer 3 · 2020-10-03T08:33:46.000Z

初次运行时脚本会保存数据tokenized后的cache，更换数据后，如未删除原cache，代码会自动读取原cache。

啊！那请问cash是在哪里呀？找了一下似乎没找到啊_(:з」∠)_

项目目录下没有一个很大的文件吗，找一下名字上会有cache字样，可以读一下数据处理部分的代码 get_data函数

Answer 4 · 2020-10-03T13:22:03.000Z

初次运行时脚本会保存数据tokenized后的cache，更换数据后，如未删除原cache，代码会自动读取原cache。

啊！那请问cash是在哪里呀？找了一下似乎没找到啊_(:з」∠)_

项目目录下没有一个很大的文件吗，找一下名字上会有cache字样，可以读一下数据处理部分的代码 get_data函数

找到了，删除以后在自己的数据集上训练成功了，太感谢啦！这个项目超棒，期待第二版~