/Wav2Lip

This repository contains the codes of "A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild", published at ACM Multimedia 2020.

Primary LanguagePython

项目文字介绍 基于Wav2Lip的AI主播

现在市面上的各种AI主播产品,基本都是基于现有的人物造型,其中包括3D动漫,真人,二次元等等,然后通过对口型的方式进行的,但是这个会有一个问题,对于这种AI主播有个名词叫虚拟数字人,虽然虚拟数字人没有肖像权的问题,但是存在软件著作权的问题,现在都是购买会员免费试用,但是也容易出现很多问题,不如用自己的形象做一个AI数字人模型更加稳妥。

先说下如果用自己形象进行数字人生成的话建议用自己很多口播视频进行训练,因为官方给的预训练模型使用英语训练出来的,所以你会发现生成好的数字人口型可能对不上的情况。如果想自己训练建议准备一定数量的口播短视频+对应的修正的字幕文档。如果硬件条件达不到的话,使用预训练模型也能凑合用,反正别深琢磨这个事。

通过模型可以实现图片和视频自动对口型制作自己的AI主播,这个是我之前发布到朋友圈的一个样例。 请添加图片描述 这个训练图片还好,如果是做视频的话还是比较吃GPU资源的 8G显存是个起步配置。