gpt-omni/mini-omni

关于layershift的作用

anliyuan opened this issue · 2 comments

大佬,在读代码时候不太明白layershift的作用是什么,可以解答一下吗?

不同的audio head并行输出的时候,每个head需要享受它自己的输入序列。 可以理解为每一个audiohead 需要一个自己的小vocab。所以这些token的序号需要在原始snac的序号上 + (head_number * snac_vocab_size),这就是layershift,对于序号的layer状的shift。

I'll close it for now, please feel free to re-open.