关于如何调用微调后的模型有些疑问

Question

关于如何调用微调后的模型有些疑问

27182812 opened this issue 4 years ago · 28 comments

您好，按照官方说明，训练模型和生成文本的model-checkpoint是一个路径，然而使用CDial-GPT_LCCC-large微调后，这个文件里面的模型应该没有发生修改（从时间看出来的），那我生成文本的时候应该调用的是哪个路径呢？请问run文件夹里的是什么啊？

Answer 1 · 2020-11-23T13:04:34.000Z

微调之后保存的模型就是runs里的文件，“官方说明”是指？

Answer 2 · 2020-11-23T13:18:50.000Z

就是快速使用那段，哈哈。那也就是说我微调后，生成文本的时候，model-checkpoint的路径应该是runs里面的文件吗？可是我用了之后会报这个错误
OSError: Error no file named ['pytorch_model.bin', 'tf_model.h5', 'model.ckpt.index'] found in directory ./runs/Nov22_23-50-23_10-255-0-133/ or from_tf set to False

Answer 3 · 2020-11-23T13:23:01.000Z

1、快速使用那里是示例啦，需要改模型的path，我去改一下吧，避免误会。
2、你应该是没微调完，他名字没保存为pytorch_model.bin。没微调完想用中间保存的模型需要你手动改名字。

Answer 4 · 2020-11-23T13:25:32.000Z

原来是这样啊，太谢谢您了！辛苦辛苦。

Answer 5 · 2020-11-23T13:31:54.000Z

原来是这样啊，太谢谢您了！辛苦辛苦。

客气客气

Answer 6 · 2020-11-24T13:26:21.000Z

您好，我在微调自己的数据的时候，出现了下图这个情况，很长时间都没有变化了，请问您知道是什么原因吗？

Answer 7 · 2020-11-24T13:39:56.000Z

看起来是卡住了？很难凭借这个图想出问题在哪（捂脸
数据长度处理了吗？最长小于512

Answer 8 · 2020-11-24T13:42:39.000Z

哈哈，对就是一直卡在这，之前有超过512的，不过数据处理就会报错，然后调整了就可以训练，但是训练每次到这都卡住。

Answer 9 · 2020-11-24T13:45:40.000Z

要不尝试一下找到这个样本（if step == 4998: pdb.set_trace()），测试一下这个样本看看他有什么问题?

Answer 10 · 2020-11-24T13:50:49.000Z

哦哦好的，谢谢，那应该是我自己数据的问题了，我好好研究一下。

Answer 11 · 2020-11-24T13:53:02.000Z

哦哦好的，谢谢，那应该是我自己数据的问题了，我好好研究一下。

具体是哪问题也不好确定，您这边找到后还望分享来让我学习一下哈。（抱拳

Answer 12 · 2020-11-24T14:13:58.000Z

哦哦好的。（抱拳

Answer 13 · 2020-11-25T03:23:57.000Z

我也遇到了这个问题，不过是在完成第一个epoch后卡住了，请问这个问题您解决了吗

Answer 14 · 2020-11-25T03:33:51.000Z

对了你门的库的版本都对齐了吗？

Answer 15 · 2020-11-25T03:34:42.000Z

首先得说下抱歉，我其实不是卡住了，只是因为训练太慢了，所以长时间没有变化，我建议你也多等等。不过按这个训练速度，在给定的预估时间内肯定是完成不了的，我这个数据集没STC数据量大，用STC微调的时候还挺快来着，不过我这个数据集是有很多历史对话，这个应该影响了速度，以及限制这个模型训练速度的瓶颈好像不在GPU，在我服务器的CPU。版本是对齐的。

Answer 16 · 2020-11-25T03:38:37.000Z

CPU吗，数据处理部分？那可能要试着优化dataloader那里

Answer 17 · 2020-11-25T03:44:37.000Z

数据处理部分虽然也挺慢，但是有缓存，一次就够了，训练的过程中，我去查看了下GPU使用情况也就30%，但是cpu一直是百分百。所以我在想可能是cpu性能限制了速度？不确定，不过是真的太慢了，感觉还是我数据的问题。

Answer 18 · 2020-11-30T14:38:36.000Z

那个CDial-GPT2_LCCC-base模型，没微调直接看结果，输出的都是一堆脏话。。。太6了

Answer 19 · 2020-11-30T14:41:21.000Z

context给的是STC吗？ STC中包含很多脏话

Answer 20 · 2020-11-30T14:45:23.000Z

自己的数据集，都是正常的语言，用其他的模型输出来是正常的话，就这个GPT2输出来的是一堆。。。

Answer 21 · 2020-11-30T14:47:39.000Z

这有点奇怪呀，LCCC-base比LCCC-large要干净

Answer 22 · 2020-11-30T14:53:14.000Z

真的，用的是同一个数据集

Answer 23 · 2020-12-01T01:29:45.000Z

真的，用的是同一个数据集

上面这张图片是用其他模型输出的吗？

并且，下面这张图里面的句子都说不溜看起来。

Answer 24 · 2020-12-01T03:21:00.000Z

上面的是GPTbase，下面是GPT2base，不过都是没有微调直接调用的情况。我今天全预测完看看，也许只是前几句这样。

Answer 25 · 2020-12-01T03:23:40.000Z

我一会儿去检查下，我放没放错模型，有可能放错STC微调后的（捂脸。
方便提供您的部分测试样例和解码参数吗

Answer 26 · 2020-12-01T03:29:18.000Z

好的，方便加下您微信吗，我发给您，我的微信号是qys1357924680。其实就是千言比赛的那个数据集，未公开的微博语料。

Answer 27 · 2020-12-23T06:12:22.000Z

我知道了，你是不是没指定--gpt2参数，来加载GPT2模型。我测了一下，如果用GPT模型加载GPT2会出现这样的情况。

Answer 28 · 2020-12-23T06:24:44.000Z

嗯嗯对的！就是这个原因，加了参数后可以了，谢谢！