yxuansu/TaCL

关于teacher模型选择的问题

wjx-git opened this issue · 2 comments

你好,非常感谢开源代码。

我们想尝试下论文中的方法,目前我们有base和large两种自己训练的预训练模型。论文中teacher和student都使用base模型,如果用large作为teacher,效果会更好吗?

Hi @wjx-git,

一般的话我们需要student和teacher是相同的configuration。因为embedding dimension不一样的话,不好直接计算loss。

Hi @wjx-git,

一般的话我们需要student和teacher是相同的configuration。因为embedding dimension不一样的话,不好直接计算loss。

感谢回复,明白了。