wjx-git opened this issue 2 years ago · 2 comments
你好,非常感谢开源代码。
我们想尝试下论文中的方法,目前我们有base和large两种自己训练的预训练模型。论文中teacher和student都使用base模型,如果用large作为teacher,效果会更好吗?
Hi @wjx-git,
一般的话我们需要student和teacher是相同的configuration。因为embedding dimension不一样的话,不好直接计算loss。
Hi @wjx-git, 一般的话我们需要student和teacher是相同的configuration。因为embedding dimension不一样的话,不好直接计算loss。
感谢回复,明白了。