关于layershift的作用
anliyuan opened this issue · 2 comments
anliyuan commented
大佬,在读代码时候不太明白layershift的作用是什么,可以解答一下吗?
superFilicos commented
不同的audio head并行输出的时候,每个head需要享受它自己的输入序列。 可以理解为每一个audiohead 需要一个自己的小vocab。所以这些token的序号需要在原始snac的序号上 + (head_number * snac_vocab_size),这就是layershift,对于序号的layer状的shift。
mini-omni commented
I'll close it for now, please feel free to re-open.