luchangli03/onnxsim_large_model

请问如何正确推理使用cuda导出的fp16 onnx chatglm2-6b-32k模型?

yuunnn-w opened this issue · 0 comments

我看32k和原生的模型结构基本是一致的,尝试了一下导出,没有问题,但是无法正确推理,推理到onnx计算部分就直接Killed退出了,请问这是什么原因?请问作者可以支持一下32k的推理吗?我这边想试试把模型导出为rknn架构。