数字人主要技术整理

中文 | English

目前数字人主要包括形象、声音和对话能力几方面。主要交互方式为直接与数字人进行对话。以下从多方面进行了收集和总结,以期提供快速入门帮助。

0. 实时感知交互能力

0.1 GPT4o

随着GPT-4o的一系列演示视频的发布,几乎解决了实时性的问题,通过实时对话、打断、主动提问,以及实时分析摄像头内容,结合本地知识库、Agent等能力,让数字人一下子达到了更高级别的可用性。

无需实体形象的可用场景(可穿戴设备:实时采集、云端处理、语音及图像反馈):

  • 个人实时助手
  • 盲人助手
  • 翻译助手
  • 学生学习辅导
  • 其他(欢迎提交补充)

需要实体形象的可用场景:

  • 数字人赋能,但是目前还未有技术能解决数字人的互动能力,比如实时往嘴上涂口红,自由镜头下的多角度运动等
  • 实体机器人赋能,如救援机器人的自主决策、和控制人员通过自然语言或特定语法进行交流等。
  • 其他

目前OpenAI还暂未提供演示中涉及的声音和视频的API,而只提供了GPT4o的文字对话和图片识别能力,相较于之前的GPT4-Vision-Preview等区别不大。

相应演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=1454557368&bvid=BV1Vi421X7Xf&cid=1544530003&p=1

0.2 其他实现

待补充

1. 形象驱动

1.1 真人录制+算法驱动

真人出镜录制素材视频,后期通过对AI驱动口型和姿态等方式实现数字人

  • 优点:难辨真假(因为是直接录制的真人素材),口型对得准,可实时直播也可录播。
  • 缺点:贵(可能)

本图片中右侧为数字人,左侧为真人 数字人1 数字人2

相应演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=701718909&bvid=BV1vm4y1x7nm&cid=1217022011&p=1


相关技术:

1.2 建模+算法驱动

建模有更高的自由度,有高精度建模和低精度建模等各种方式丰俭由人,也可以另辟蹊径建造卡通形象等。

代表技术:

Meta Human alt text

NVIDIA Omniverse Audio2Face alt text

Live2D alt text

Adobe Character Animator alt text

2. 声音模仿

一些非专业的背景知识补充:
数字人声音可使用现有模型的TTS,或使用自训练的声音模型。声学模型是声音合成系统的重要组成部分。 声学模型

主流声学模型包括VITSTacotronFastSpeech2等。VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种语音合成方法,它使用预先训练好的语音编码器 (vocoder声码器) 将文本转化为语音。 vits process

之前流行的AI孙燕姿等,采用技术为so-vits-svc,全称SoftVC VITS Singing Voice Conversion。该技术是一个声音爱好者基于softVCVITS修改而来。

声音模仿相关热点项目(截止2024.6)

1. GPT-SoVITS 27.0K stars
声音模型训练项目,少量文本即可实现微调模型,提供WebUI。

项目地址: https://github.com/RVC-Boss/GPT-SoVITS

演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=836354039&bvid=BV12g4y1m7Uw&cid=1406840960&p=1

2. so-vits-svc 24.4K stars
声音模型训练项目,代表:AI孙燕姿。

项目地址: https://github.com/svc-develop-team/so-vits-svc

演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=572772327&bvid=BV1Mz4y1p7hY&cid=1178460068&p=1

3. ChatTTS 23.3K stars
非声音克隆。但是其文字转声音效果非常好,有停顿,有语气,有情绪。原生中文支持。网络提供了Windows、Linux等各种一键部署包、懒人包等。

项目地址: https://github.com/2noise/ChatTTS

演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=1055092304&bvid=BV1zn4y1o7iV&cid=1561584918&p=1

其他:剪映capcut声音克隆睿声ReechoEmotional VITSBark

3. 互动技术

tbd
如多镜头多角度下的数字人、实时换装、化妆等。

4. 应用场景及综合代表项目

数字人在自媒体(知识科普等相关口播博主)、电商直播带货、教育教学领域有所应用。在数字生命(已故亲人)等领域(和AR、VR等结合)也有探索。此外,数字人技术和实体机器人的融合等也是题中应有之义。

代表项目:

  1. AI-Vtuber

【开源】AI Vtuber是一个由大模型驱动的、融合外观、声音的虚拟AI主播

  1. Fay
    【开源】Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her。

  2. HeyGen
    【海外/华人创办】AI视频制作热门平台,提供数字分身、声音克隆等多种相关功能。
    alt text

  3. 特看科技
    【国产商用】基于真人视频的高质量数字人 alt text

  4. 腾讯智影
    【国产商用】融合多种AIGC能力的综合创作平台。 alt text

  5. 超能科智
    【国产商用】AIGC课程内容生产代表,提供内容生产和服务一站式平台 alt text

  6. 飞影数字人
    【国产商用】提供数字分身、声音克隆等多种功能
    alt text

5. 法律法规、代表性新闻

6. 数字人的大脑 Large Langurage Model

目前支持图片识别和处理的多模态模型主要有

gpt-4o,gpt-4-vision-preview,gemini-pro-vision,智浦GLM-4V,零一科技yi-vl-plus,通义千问Qwen-VL-Max、LLaVA(开源)等。

各模型API申请地址

开源大模型集成前端

大模型API集成管理网关

本地知识库和智能体构建

大模型自动化测评工具