请问如何正确推理使用cuda导出的fp16 onnx chatglm2-6b-32k模型？

Question

yuunnn-w opened this issue a year ago · 0 comments

我看32k和原生的模型结构基本是一致的，尝试了一下导出，没有问题，但是无法正确推理，推理到onnx计算部分就直接Killed退出了，请问这是什么原因？请问作者可以支持一下32k的推理吗？我这边想试试把模型导出为rknn架构。