luchangli03/export_llama_to_onnx

convert Qwen question

OneStepAndTwoSteps opened this issue · 4 comments

hello,我按您提供的convert Qwen在做qwen的HF转ONNX的时候得到了四组onnx的后缀文件和一些外接权重,我想请教一下如果要load模型进行推理我应该怎么做

这几个模型也可以参考export_llama_single.py导出一个模型,推理其实挺简单的。逻辑简单的来说就是prompt->input_ids->embeding->decoder_layers->output norm->lm_head得到lm_logics,然后再据此用topk,topp等方法预测下一个token input_id再转到前面embeding部分进行循环直到发现结束token或者满足其他结束条件。

请问您成功推理了吗,我最近也在尝试这个,但是刚接触AI不知道怎么弄