/Visual-Auditory-Fusion-Perception

广东省“珠江人才计划”——服务机器人智能引擎平台

Primary LanguagePythonMIT LicenseMIT

视听融合感知智能引擎平台

Project Page   License   Demo Website  

📕 中文版 README | 📗 English README

📻 安装指南

在使用我们的模型之前,您需要先确保环境中已安装所有必要的依赖项。这些依赖项涵盖了模型运行所需的各类库和工具,确保您可以顺利进行模型推理。

请按照以下步骤进行安装:

  1. 打开终端或命令提示符:根据您的操作系统,打开相应的命令行界面。
  2. 使用pip安装依赖项:输入以下命令,通过pip安装所需的Python包和库。
pip install -r requirements.txt

🚀 推理指南

安装完所有必要的依赖项后,您就可以开始使用我们的模型进行推理了。我们提供了两种推理方式:使用终端进行推理和使用交互式推理。

这里我们以示例图片asserts/demo.jpg为例进行说明:

1. 使用终端进行推理

如果您希望直接在终端中运行推理脚本,可以使用以下命令:

python chatme.py --image asserts/demo.jpg --question "货架上有几个苹果?"

此命令会加载预训练的模型,并使用提供的图片(demo.jpg)和问题("货架上有几个苹果?")进行推理。

模型会分析图片并尝试回答提出的问题,推理结果将以文本形式输出到终端中,例如:

小千:货架上有三个苹果。

2. 使用交互式推理

除了使用终端进行推理,您还可以使用交互式推理功能与大模型进行实时交互。要启动交互式终端,请运行以下命令:

python main.py

此命令会启动一个交互式终端,等待您输入图片地址。您可以在终端中输入图片地址(例如asserts/demo.jpg),然后按下回车键。

模型会根据您提供的图片进行推理,并等待您输入问题。

一旦您输入了问题(例如"货架上有几个苹果?"),模型就会分析图片并尝试回答,推理结果将以文本形式输出到终端中,例如:

图片地址 >>>>> asserts/demo.jpg
用户:货架上有几个苹果?
小千:货架上有三个苹果。

通过这种方式,您可以轻松地与模型进行交互,并向其提出各种问题。

🧾 References

📈 Benchmark

📷 Visual Perception

🎧 Audio

💬 NLP

🔮 Multi-Modal

🤖 Robotic