thu-coai/CDial-GPT

关于如何调用微调后的模型有些疑问

27182812 opened this issue · 28 comments

您好,按照官方说明,训练模型和生成文本的model-checkpoint是一个路径,然而使用CDial-GPT_LCCC-large微调后,这个文件里面的模型应该没有发生修改(从时间看出来的),那我生成文本的时候应该调用的是哪个路径呢?请问run文件夹里的是什么啊?

微调之后保存的模型就是runs里的文件,“官方说明”是指?

就是快速使用那段,哈哈。那也就是说我微调后,生成文本的时候,model-checkpoint的路径应该是runs里面的文件吗?可是我用了之后会报这个错误
OSError: Error no file named ['pytorch_model.bin', 'tf_model.h5', 'model.ckpt.index'] found in directory ./runs/Nov22_23-50-23_10-255-0-133/ or from_tf set to False

1、快速使用那里是示例啦, 需要改模型的path, 我去改一下吧,避免误会。
2、你应该是没微调完,他名字没保存为pytorch_model.bin。 没微调完想用中间保存的模型需要你手动改名字。

原来是这样啊,太谢谢您了!辛苦辛苦。

原来是这样啊,太谢谢您了!辛苦辛苦。

客气客气

您好,我在微调自己的数据的时候,出现了下图这个情况,很长时间都没有变化了,请问您知道是什么原因吗?
image

看起来是卡住了?很难凭借这个图想出问题在哪(捂脸
数据长度处理了吗?最长小于512

哈哈,对就是一直卡在这,之前有超过512的,不过数据处理就会报错,然后调整了就可以训练,但是训练每次到这都卡住。

要不尝试一下找到这个样本(if step == 4998: pdb.set_trace()),测试一下这个样本看看他有什么问题?

哦哦好的,谢谢,那应该是我自己数据的问题了,我好好研究一下。

哦哦好的,谢谢,那应该是我自己数据的问题了,我好好研究一下。

具体是哪问题也不好确定,您这边找到后还望分享来让我学习一下哈。(抱拳

哦哦好的。(抱拳

BFJL commented

我也遇到了这个问题,不过是在完成第一个epoch后卡住了,请问这个问题您解决了吗

对了你门的库的版本都对齐了吗?

首先得说下抱歉,我其实不是卡住了,只是因为训练太慢了,所以长时间没有变化,我建议你也多等等。不过按这个训练速度,在给定的预估时间内肯定是完成不了的,我这个数据集没STC数据量大,用STC微调的时候还挺快来着,不过我这个数据集是有很多历史对话,这个应该影响了速度,以及限制这个模型训练速度的瓶颈好像不在GPU,在我服务器的CPU。版本是对齐的。

CPU吗,数据处理部分?那可能要试着优化dataloader那里

数据处理部分虽然也挺慢,但是有缓存,一次就够了,训练的过程中,我去查看了下GPU使用情况也就30%,但是cpu一直是百分百。所以我在想可能是cpu性能限制了速度?不确定,不过是真的太慢了,感觉还是我数据的问题。

那个CDial-GPT2_LCCC-base模型,没微调直接看结果,输出的都是一堆脏话。。。太6了

context给的是STC吗? STC中包含很多脏话

自己的数据集,都是正常的语言,用其他的模型输出来是正常的话,就这个GPT2输出来的是一堆。。。

这有点奇怪呀,LCCC-base比LCCC-large要干净

image
image
真的,用的是同一个数据集

image
image
真的,用的是同一个数据集

上面这张图片是用其他模型输出的吗?

并且,下面这张图里面的句子都说不溜看起来。

上面的是GPTbase,下面是GPT2base,不过都是没有微调直接调用的情况。我今天全预测完看看,也许只是前几句这样。

我一会儿去检查下,我放没放错模型,有可能放错STC微调后的(捂脸。
方便提供您的部分测试样例和解码参数吗

好的,方便加下您微信吗,我发给您,我的微信号是qys1357924680。其实就是千言比赛的那个数据集,未公开的微博语料。

我知道了,你是不是没指定--gpt2参数,来加载GPT2模型。我测了一下,如果用GPT模型加载GPT2会出现这样的情况。

嗯嗯对的!就是这个原因,加了参数后可以了,谢谢!