关于teacher模型选择的问题

Question

wjx-git opened this issue 2 years ago · 2 comments

你好，非常感谢开源代码。

我们想尝试下论文中的方法，目前我们有base和large两种自己训练的预训练模型。论文中teacher和student都使用base模型，如果用large作为teacher，效果会更好吗？

Answer 1 · 2023-01-04T13:27:07.000Z

一般的话我们需要student和teacher是相同的configuration。因为embedding dimension不一样的话，不好直接计算loss。

Answer 2 · 2023-01-05T11:07:19.000Z

Hi @wjx-git,

一般的话我们需要student和teacher是相同的configuration。因为embedding dimension不一样的话，不好直接计算loss。

感谢回复，明白了。