zhengli97/PromptKD

知识蒸馏的代码过程实现

Closed this issue · 4 comments

作者你好!我刚刚接触知识蒸馏这一领域,在研读你的论文和代码(主要是PromtKD/clip/model.py部分)后并没有明白代码是如何实现知识蒸馏的,请问您能讲解一下吗?麻烦了

论文的fig2(b)里面,teacher通过logits对齐蒸馏给student。如果对蒸馏不了解的话,推荐去看一些传统蒸馏的paper

好的,我先去看下传统蒸馏的paper。作者,还有个问题就是在冻结学生模型参数后为什么仅训练prompt和projection层就能够保证student模型学习到teacher,尤其是在student参数量也相对较大的情况下?还有就是如果事先存储的text feature不包括后面inference阶段出现的类别是否还能产生理想的效果?

  1. prompt和projector的拟合能力足够强的。可以去看看llava的结构,简单的mlp就足以去映射image feature给llm了。
  2. 不包括就没办法inference。

十分感谢作者的耐心回复!!!