ELECTRA-base的配置文件的参数设置

Question

ELECTRA-base的配置文件的参数设置

ChrisChaw opened this issue 4 years ago · 21 comments

请问ELECTRA-base, Chinese: 12-layer, 768-hidden, 12-heads, 102M parameters的params_cmrc2018.json配置文件参数是什么？README里提供的是ELECTRA-small

Answer 1 · 2020-07-21T13:47:21.000Z

把small换成base，其余参数请自行调参（主要修改学习率）。另外，请不要重复开贴，有问题请在本帖继续提问，谢谢。

Answer 2 · 2020-07-22T03:15:00.000Z

您好，请问这两个文件discriminator.json和model.bin在哪里？

Answer 3 · 2020-07-22T06:19:49.000Z

如果你说的是ELECTRA-base-discriminator，请下载PyTorch版本的权重。
https://github.com/ymcui/Chinese-ELECTRA#模型下载
选择ELECTRA-base, Chinese -> PyTorch-D的谷歌或者讯飞云下载点进行下载。

Answer 4 · 2020-07-22T06:34:57.000Z

还需要请教您


tf的checkpoint file在哪里？

Answer 5 · 2020-07-22T07:41:54.000Z

截图中的内容是手动将TensorFlow版模型转换成PyTorch版本的步骤。

如果你已经下载了PyTorch版本的模型是不需要上述步骤的。
如果你下载的是TensorFlow版本的模型，但要转换成PyTorch版本，则需要上述步骤。
./path-to-large-model/指的是你下载下来的TensorFlow版本权重存放的位置。

Answer 6 · 2020-07-22T07:48:28.000Z

我需要pytorch版本，但是代码都是tensorflow版本的

Answer 7 · 2020-07-22T07:50:56.000Z

本目录的模型TF/PT都可以使用，但代码只提供TF版本。
PyTorch版代码请你参考transformers库的用法，这里不做进一步讨论。

Answer 8 · 2020-07-22T17:07:09.000Z

报错提示需要 'checkpoint' file or checkpoints in given directory train/models/cmrc2018 checkpoint文件在哪里？是预训练生成的吗？启动预训练的命令是什么？应该先预训练好模型后保存，才能微调吧？

Answer 9 · 2020-07-23T00:04:46.000Z

checkpoint是tensorflow版本所需要的，你不是用PyTorch吗？
感觉你应该是对预训练和精调有一些理解上的问题，建议你看一下ELECTRA论文。
我们提供的就是已经预训练好的模型了，你直接就可以在上面做精调。

Answer 10 · 2020-07-23T00:12:55.000Z

抱歉，时间有限，没法一一解答。
建议你补充一下预训练模型相关基础知识，比如看一下ELECTRA的论文以及官方目录：https://github.com/google-research/electra

Answer 11 · 2020-07-23T01:06:21.000Z

这就是运行fine tuning时报的错。

Answer 12 · 2020-07-23T01:27:26.000Z

该项目是已经预训练好的，预训练好的checkpoint file保存在哪里了？在运行fine tuning时报错未找到checkpoint file，烦请告知，感谢。

你下载TensorFlow版的权重就会有checkpoint文件了。
如果还是找不到，你就自己写一个文件，保存成checkpoint。
至于checkpoint文件是什么，你可以去学习TensorFlow的基础课程。

model_checkpoint_path: "electra_small"
all_model_checkpoint_paths: "electra_small"

Answer 13 · 2020-07-23T01:51:25.000Z

我用的base版本的，解压后确实没发现有像small版本的checkpoint文件。
这是执行fine tuning后生成的文件：

经查阅，checkpoint文件是个后缀为.ckpt的文件这种文件自己怎么写？

Answer 14 · 2020-07-23T01:55:12.000Z

我怀疑你有没有认真看我的回复。上面明明说了是得用TensorFlow版的权重才会有checkpoint文件。
你最后一张里的截图是CMRC 2018训练集所对应的tfrecord，并不是什么模型文件。
真心建议你先补充一下TensorFlow或者PyTorch的基础再进行上述实验。关于TF/PT基础方面的问题我这边没法一一解答了。

Answer 15 · 2020-07-23T01:59:40.000Z

现在想起来了我应该下载tensorflow版本的模型因为确实没用过tensorflow 所以不好意思麻烦您了

Answer 16 · 2020-07-23T12:26:52.000Z

这个项目在服务器上跑了一下(tensorflow版本的)，内存爆了。

Answer 17 · 2020-07-24T06:02:14.000Z

请教一下，我用 Transformers引用electra-base,MODEL_NAME是不是等于画红框的部分？还需要在transformers里面修改代码？请告知，感谢！

Answer 18 · 2020-07-24T08:28:31.000Z

是，但是具体用法你还是要认真学习一下transformers库的基本用法。

Answer 19 · 2020-07-24T08:42:29.000Z

请问是像这样下载吗？

Answer 20 · 2020-07-24T08:54:58.000Z

是，麻烦你自己先钻研，先把需要的背景知识和工具都学习一下再进行实验。大家的时间都挺宝贵的，谢谢。

Answer 21 · 2020-08-03T11:04:38.000Z

torch模型的forward方法里面内容为空，用Electra模型无法训练。

上图是训练模型时调用的forward方法，这个方法里的代码为空，下图是报的错，请大佬百忙之中看一下这个问题该如何解决？非常感谢您！！！