知识蒸馏的代码过程实现

Question

知识蒸馏的代码过程实现

Closed this issue 3 months ago · 4 comments

作者你好！我刚刚接触知识蒸馏这一领域，在研读你的论文和代码（主要是PromtKD/clip/model.py部分）后并没有明白代码是如何实现知识蒸馏的，请问您能讲解一下吗？麻烦了

Answer 1 · 2024-05-22T02:37:35.000Z

论文的fig2(b)里面，teacher通过logits对齐蒸馏给student。如果对蒸馏不了解的话，推荐去看一些传统蒸馏的paper

Answer 2 · 2024-05-22T02:59:58.000Z

好的，我先去看下传统蒸馏的paper。作者，还有个问题就是在冻结学生模型参数后为什么仅训练prompt和projection层就能够保证student模型学习到teacher,尤其是在student参数量也相对较大的情况下？还有就是如果事先存储的text feature不包括后面inference阶段出现的类别是否还能产生理想的效果？

Answer 3 · 2024-05-22T03:12:24.000Z

prompt和projector的拟合能力足够强的。可以去看看llava的结构，简单的mlp就足以去映射image feature给llm了。
不包括就没办法inference。

Answer 4 · 2024-05-22T03:15:17.000Z

十分感谢作者的耐心回复！！！