关于蒸馏中LLM模型的语义特征
Opened this issue · 1 comments
wddwzwhhxx commented
首先感谢你们的文章!看了很有启发性。
我有一点困惑,对于文中提到的取llama模型的语义特征,并且你们提到了下面这两行:
for layer in self.layers:
h = layer(h, start_pos, freqs_cis, mask)
我使用了你们的例子输入”a colorful animal with big eyes on a blue background,“但当我打印第40层layer的最终结果shape时,显示h的shape是【1, 12, 5120】,显然每个word都拥有一个[5120]长度的token,但你们的sur_data_small里面却是一个【5120】的token,这是怎么回事呢?我应该取LLM哪个位置的语义特征呢?
期待你们的回复