SEEChat - 一见多模态对话模型

“一见”取义自“百闻不如一见”，是一个侧重视觉能力的多模态对话大模型，基于单模态专家缝合路线（Single-modal Experts Efficient integration, SEEChat）。
SEEChat项目的重点是将视觉能力与文本对话能力相集成，长期目标是赋予模型以文本/对话的方式解决视觉任务（图像理解，目标检测，跨模态，开放集）的能力
“一见”多模态对话模型是SEEChat的开源版本，语言模型部分基于中文ChatGLM6B

能力展示

SEEChat基于单模态专家缝合路线，通过可学习的桥接层将视觉模态的专家模型与文本模态的专家模型进行缝合，形成具备视觉理解能力的多模态对话模型。

开源V1.0版本的SEEChat，视觉模态基于CLIP-ViT，文本模态基于ChatGLM，可学习的桥接层参考BLIP-2以及LLAVA等前期工作，进行如下的两阶段训练：

GPU要求3090或者A100

conda env create -f environment.yml

从这里下载chatGLM所有的bin文件和ice_text.model，放于目录models/chatglm-6b中。
从百度云盘下载权重文件checkpoint_100.pth，放于目录models/chatglm-6b中。其中提取码为 qiho

进入到目录： cd code
运行启动脚本： sh demo_stage2.sh

启动后，即将开始一轮对话。当命令行显示“question”时，用户可以在终端输入问题，由seechat回答。当输入“break”时，本轮对话结束，进行下一轮对话。实测效果如下：