关于蒸馏中LLM模型的语义特征

Question

关于蒸馏中LLM模型的语义特征

Opened this issue a year ago · 1 comments

首先感谢你们的文章！看了很有启发性。
我有一点困惑，对于文中提到的取llama模型的语义特征，并且你们提到了下面这两行：
for layer in self.layers:
h = layer(h, start_pos, freqs_cis, mask)
我使用了你们的例子输入”a colorful animal with big eyes on a blue background，“但当我打印第40层layer的最终结果shape时，显示h的shape是【1， 12， 5120】，显然每个word都拥有一个[5120]长度的token，但你们的sur_data_small里面却是一个【5120】的token，这是怎么回事呢？我应该取LLM哪个位置的语义特征呢？

期待你们的回复

Answer 1 · 2023-09-14T07:47:56.000Z

感谢你的关注！我们在论文的 Knowledge from LLM 这部分内容对于语义特征的处理进行了描述：

我们在 Knowledge from LLM 中说明了我们在 token 维度取了均值，以使得 token 对齐。也即您只需要通过 h.mean(1) 就可以获取 SUR-adapter 蒸馏过程中使用的语义表征。