长序列(>2048)出现output为空
Closed this issue · 7 comments
YiqiangLi commented
现象和这个描述很相似,但默认已经用了gpt attention pluginde rope, 会是什么问题呢?
//////////////////////////
完整支持原版的logn和ntk(这俩参数是用于增强模型长输入的生成效果,这里的长输入指的是输入长度大于2048小于8192)。不过由于trt-llm的某些bug,导致输入长度>2048时,实际输出会很短甚至为空,详见https://github.com/NVIDIA/trt-samples-for-hackathon-cn/issues/90,加上rope放gpt attention plugin里面计算更快,所以我们logn注释掉了。
Tlntin commented
logn+ntk相关代码还未完美支持,暂时注释掉了,所以长序列就是会为空。
YiqiangLi commented
目前注释的是功能完备的嘛?如果我把注释的打开,同时让gpt attention不算rope,是不是也是可以的呢?
Tlntin commented
目前注释的是功能完备的嘛?如果我把注释的打开,同时让gpt attention不算rope,是不是也是可以的呢?
额,可能还需要优化一下,只能说完成度90%。
看看官方后面发布的新版能否直接在gpt attention plugin里面支持ntk和logn吧,那样效果会好一些。
Tlntin commented
YiqiangLi commented
是的,但我们目前用的是14B。。
Tlntin commented
好的,最近我会尝试恢复注释的代码。