pymnn-llm

pymnn-llm项目是mnn-llm(ChatGLM-MNN)项目的python版本，相比与cpp版本，增加了onnx运行后端。当前项目是一个假期toy项目，只保证了模型的正常运行，但不一定保证模型得到正确的预期结果。

运行步骤

前台模型扩展需要在models.py下添加对应的模型，继承Basellm基类，并实现： _tokenizer,

_gen_attention_mask,

_gen_position_ids,

_is_stop,

等类成员方法。

后端运行时扩展需要在engine.py下添加对应的推理运行时，继承BaseEngine基类, 并实现：

reset_kv,

_load_model,

forward,

等类成员方法。

-Q: 出现错误Acquire buffer size

爆内存了，检查输入的数据量是否过大，输入的shape是否正确以及输入数据类型是否一致。