fzh0917/SparseTT

请问推理部分是这么聚合两个头的结果的?

Opened this issue · 1 comments

是要用到其他结构吗?

请问你复现这个代码了吗,结果精度差别大吗,我用了不同的GPU,got10k的结果差别很大,一般在百分之1左右。