CyberAgentAILab/TANGO

生成的视频没有声音

Opened this issue · 17 comments

本人使用windows在本地部署的,除了修改requirement的mmcv-2.1.0-cp39-cp39-win_amd64.whl和手动下载了batch-face放在tango环境下之外,其他都按步骤来的。可以打开gradio,生成的视频与音频一样长,但是没有声音。

ffmpeg你没有安装好,你可能缺少了x264的编码,如果你是conda,你可以用
conda install-c conda-forge ffmpeg

ffmpeg你没有安装好,你可能缺少了x264的编码,如果你是conda,你可以用 conda install-c conda-forge ffmpeg
感谢大佬回复,但是用conda install -c conda-forge ffmpeg下载了,也手动下载+添加环境变量了,都不行

metoo

1731638196812
这是x264编码正确配置的意思吧,但是我的输出依然没有声音,呜呜呜呜

如果x264没装好 你去gradio上 样例视频会出现显示不出来

1731645150294
这样是没显示出来吗,样例任务有些时候会显示不完全,但我不太懂是什么原因

你这个是显示完整了的,因为gradio启动的时候,好像这些样例会ffmpeg编码一下,我之前没有安装带x264的ffmpeg,这些视频都不会显示出来,然后视频可以推理出来,也是没有声音,重新安装了带x264的ffmpeg,一切都好了。

看看你们的版本,以下是我的版本:

Python 3.9.18

ffmpeg version 7.1 Copyright (c) 2000-2024 the FFmpeg developers
built with gcc 13.3.0 (conda-forge gcc 13.3.0-1)
configuration: --prefix=/opt/conda/envs/tango --cc=/home/conda/feedstock_root/build_artifacts/ffmpeg_1728332263724/_build_env/bin/x86_64-conda-linux-gnu-cc --cxx=/home/conda/feedstock_root/build_artifacts/ffmpeg_1728332263724/_build_env/bin/x86_64-conda-linux-gnu-c++ --nm=/home/conda/feedstock_root/build_artifacts/ffmpeg_1728332263724/_build_env/bin/x86_64-conda-linux-gnu-nm --ar=/home/conda/feedstock_root/build_artifacts/ffmpeg_1728332263724/_build_env/bin/x86_64-conda-linux-gnu-ar --disable-doc --enable-openssl --enable-demuxer=dash --enable-hardcoded-tables --enable-libfreetype --enable-libharfbuzz --enable-libfontconfig --enable-libopenh264 --enable-libdav1d --disable-gnutls --enable-libmp3lame --enable-libvpx --enable-libass --enable-pthreads --enable-vaapi --enable-libopenvino --enable-gpl --enable-libx264 --enable-libx265 --enable-libaom --enable-libsvtav1 --enable-libxml2 --enable-pic --enable-shared --disable-static --enable-version3 --enable-zlib --enable-libopus --pkg-config=/home/conda/feedstock_root/build_artifacts/ffmpeg_1728332263724/_build_env/bin/pkg-config
libavutil 59. 39.100 / 59. 39.100
libavcodec 61. 19.100 / 61. 19.100
libavformat 61. 7.100 / 61. 7.100
libavdevice 61. 3.100 / 61. 3.100
libavfilter 10. 4.100 / 10. 4.100
libswscale 8. 3.100 / 8. 3.100
libswresample 5. 3.100 / 5. 3.100
libpostproc 58. 3.100 / 58. 3.100
Universal media converter

(tango) root@abd144ff4f98:/# pip list
Package Version Editable project location


absl-py 2.1.0
addict 2.4.0
aiofiles 23.2.1
annotated-types 0.7.0
antlr4-python3-runtime 4.9.3
anyio 4.6.2.post1
attrs 24.2.0
audioread 3.0.1
autocommand 2.2.2
av 11.0.0
backports.tarfile 1.2.0
basicsr 1.4.2
batch-face 1.5.0.dev0
certifi 2024.8.30
cffi 1.17.1
charset-normalizer 3.4.0
chumpy 0.70
click 8.1.7
ConfigArgParse 1.7
contourpy 1.3.0
cycler 0.12.1
Cython 3.0.11
decorator 4.4.2
decord 0.6.0
diffusers 0.24.0
easydict 1.13
einops 0.8.0
eval_type_backport 0.2.0
exceptiongroup 1.2.2
facexlib 0.3.0
fastapi 0.115.4
ffmpeg-python 0.2.0
ffmpy 0.4.0
filelock 3.16.1
filterpy 1.4.5
flatbuffers 24.3.25
fonttools 4.54.1
freetype-py 2.5.1
fsspec 2024.10.0
ftfy 6.3.1
future 1.0.0
gfpgan 1.3.8
gradio 4.44.1
gradio_client 1.3.0
grpcio 1.67.1
h11 0.14.0
httpcore 1.0.6
httpx 0.27.2
huggingface-hub 0.26.2
idna 3.10
igraph 0.11.8
imageio 2.33.0
imageio-ffmpeg 0.4.9
importlib_metadata 8.5.0
importlib_resources 6.4.5
inflect 7.3.1
jaraco.collections 5.1.0
jaraco.context 5.3.0
jaraco.functools 4.0.1
jaraco.text 3.12.1
jax 0.4.30
jaxlib 0.4.30
Jinja2 3.1.4
joblib 1.4.2
json-tricks 3.17.3
kiwisolver 1.4.7
lazy_loader 0.4
librosa 0.9.2
llvmlite 0.43.0
lmdb 1.5.1
Markdown 3.7
markdown-it-py 3.0.0
MarkupSafe 2.1.5
matplotlib 3.9.2
mdurl 0.1.2
mediapipe 0.10.11
ml_dtypes 0.5.0
mmcv 2.1.0
mmdet 3.2.0
mmengine 0.10.5
mmpose 0.28.0
more-itertools 10.3.0
moviepy 1.0.3
mpmath 1.3.0
msgpack 1.1.0
munkres 1.1.4
networkx 3.2.1
numba 0.60.0
numpy 1.23.5
omegaconf 2.2.3
open-clip-torch 2.20.0
opencv-contrib-python 4.8.1.78
opencv-python 4.8.1.78
opencv-transforms 0.0.6
opt_einsum 3.4.0
orjson 3.10.11
packaging 24.1
pandas 2.2.3
Pillow 9.5.0
pip 24.2
platformdirs 4.3.6
plyfile 1.1
pooch 1.8.2
proglog 0.1.10
protobuf 3.20.3
pycocotools 2.0.8
pycparser 2.22
pydantic 2.9.2
pydantic_core 2.23.4
pydub 0.25.1
pyglet 2.0.18
Pygments 2.18.0
PyOpenGL 3.1.0
pyparsing 3.2.0
pyrender 0.1.45
python-dateutil 2.9.0.post0
python-multipart 0.0.17
pytz 2024.2
PyWavelets 1.6.0
PyYAML 6.0.2
realesrgan 0.3.0 /github/TANGO/Wav2Lip-HD/Real-ESRGAN
regex 2024.11.6
requests 2.32.3
resampy 0.4.3
rich 13.9.4
ruff 0.7.3
safetensors 0.4.5
scikit-image 0.21.0
scikit-learn 1.3.2
scipy 1.11.4
semantic-version 2.10.0
sentencepiece 0.2.0
setuptools 75.1.0
shapely 2.0.6
shellingham 1.5.4
six 1.16.0
sixdrepnet 0.1.6
smplx 0.1.28
sniffio 1.3.1
sounddevice 0.5.1
soundfile 0.12.1
soxr 0.5.0.post1
starlette 0.41.2
sympy 1.13.3
tb-nightly 2.19.0a20241111
tensorboard-data-server 0.7.2
tensorboardX 2.6.2.2
termcolor 2.5.0
terminaltables 3.1.10
texttable 1.7.0
threadpoolctl 3.5.0
tifffile 2024.8.30
timm 1.0.11
tokenizers 0.13.3
tomli 2.0.2
tomlkit 0.12.0
torch 2.1.0+cu118
torchaudio 2.1.0+cu118
torchgeometry 0.1.2
torchvision 0.16.0+cu118
tqdm 4.67.0
transformers 4.30.2
trimesh 4.5.2
triton 2.1.0
typeguard 4.3.0
typer 0.13.0
typing_extensions 4.12.2
tzdata 2024.2
urllib3 2.2.3
uvicorn 0.32.0
wcwidth 0.2.13
websockets 12.0
Werkzeug 3.1.3
wget 3.2
wheel 0.44.0
xtcocotools 1.14.3
yacs 0.1.8
yapf 0.40.2
zipp 3.21.0

我查询了与声音相关的库如下
c4bf8a4d305d94bca65610c753f0528

接着我对比了这些库,只有librosa版本不一样如下
c850724aa5c7fb8832f3b1183da2c8b
然后我试着安装和你一样的版本,报错返回RuntimeError: Numpy is not available,我试着重装numpy,报错返回AttributeError: module 'zstandard' has no attribute 'version',问题越来越多了,呜呜呜呜呜呜呜呜呜

经过1个月的摸索,目前tango已经正常跑起来了,基本上所有的坑基本上也被我采完了,以下是一些总结,和解决问题的方式。
本人电脑配置:显存16G 4060TI,内存32G。
推荐最低配置:显存16G 4060TI,内存32G。
如果只是学习:显存8-12G ,内存16G。
1 安装的问题:
1.1 依赖问题:mmcv 在项目的依赖中只提供了linux版本的,所以本地跑的朋友会报错 (解决思路:修改为window的,其他人帖子里面有解决办法。)
1.2 执行app.py 时,下载的文件过大,每次都会重复下载等问题。(解决思路:分批下载)
1.3 本地window运行的时候,因为linux和本地的文件夹路径等问题不一样,导致本地create_graph.py执行的时候报错问题。(解决思路:判断如果是window,则创建一个新的储存文件的地址)
1.4 以及本地 window中app.py执行 wav2lip中的inference.py文件时报错问题。(解决思路:linux和window命令是有区别的)
1.5 项目部署好之后只能本地访问,不能非127.0.0.1和localhost访问问题。(解决思路:改为0.0.0.0即可)
2 使用问题:
2.1 默认分辨率太低画面非常模糊的问题(解决思路:太简单了,不解释了,相信你会!!!)
2.2 默认生成时间只有10秒的问题。(解决思路:太简单了,不解释了,相信你会!!!)
2.3 参考视频默认为20秒的项目问题。(解决思路:太简单了,不解释了,相信你会!!!)
2.4 生成视频的时候容易爆显存和内存的问题。(解决思路:生成的批次改为1即可)
2.5 视频可能不连贯问题。(解决思路:2个方法:方法1作者有在别人帖子说,方法2,说了你也不会改。本人用了方法1)
3 目前我本地window效果:
3.1 参考视频10S+2.5分钟音频+720*1280分辨率 需要13-15分钟左右生成 .
3.2 目前效果: 参考视频10秒+5分钟音频 在我的电脑上不会爆显存和内存。(云端更不会)
3.3 生成的视频效果可以联系本人后微信发你看看。(有一定的局限性)
4 说明
4.1 仅提供安装的文档,以及代码修改的地方,仅做技术培训。(不懂随时问我,晚上一般都有时间)
4.2 不提供代码整合包!不提供代码整合包!不提供代码整合包!
4.3 可以远程帮忙,但必须是晚上或者周末(因为我和你一样白天要上班)。
4.4 完全不懂技术的,可以提供远程全套安装(价格再谈)。
4.5 有任何疑惑可以聊完之后再付费。(单纯的了解tango项目情况,不收费!!!)
4.6 linux和window我都跑通了。(可以提供参考意见)
4.7 对于学生,可以教你学习这个数字人,带你理解这个tango项目的逻辑(我知道的都可以告诉你,不懂就问,我看到就回复)。
4.7 正在做 批量排队生成数字人视频+高清视频这部分(敬请期待!!!)
5 收费标准
5.1 388元。(可怜一下吧!我也花了好长的时间,采了各种坑,300多块钱,超值了!!!)
6 联系方式:
494456995@qq.com 可以给我发邮箱或者加我QQ。

也有可能是wav2lip 没有正常运行,音频是在wav2lip那一步加的。

也有可能是wav2lip 没有正常运行,音频是在wav2lip那一步加的。

好的,谢谢,我试试看单独尝试wav2lip

也有可能是wav2lip 没有正常运行,音频是在wav2lip那一步加的。

是的,就是这个原因,我在本地跑的时候,花了两天时间,终于找到了这个比较坑的原因,这个bug有点看起来很明显,实则也很明显,但是不细心的话不是一般的难找。

我查询了与声音相关的库如下 c4bf8a4d305d94bca65610c753f0528

接着我对比了这些库,只有librosa版本不一样如下 c850724aa5c7fb8832f3b1183da2c8b 然后我试着安装和你一样的版本,报错返回RuntimeError: Numpy is not available,我试着重装numpy,报错返回AttributeError: module 'zstandard' has no attribute 'version',问题越来越多了,呜呜呜呜呜呜呜呜呜

pip install numpy==1.23.5 不要装2.0以上的版本

我查询了与声音相关的库如下c4bf8a4d305d94bca65610c753f0528
接着我对比了这些库,只有librosa版本不一样如下 c850724aa5c7fb8832f3b1183da2c8b 然后我试着安装和你一样的版本,报错返回RuntimeError: Numpy is not available,我试着重装numpy,报错返回AttributeError: module 'zstandard' has no attribute 'version',问题越来越多了,呜呜呜呜呜呜呜呜

pip install numpy==1.23.5 不要装2.0以上的版本

谢谢

ffmpeg你没有安装好,你可能缺少了x264的编码,如果你是conda,你可以用 conda install-c conda-forge ffmpeg
感谢大佬回复,但是用conda install -c conda-forge ffmpeg下载了,也手动下载+添加环境变量了,都不行
你解决了么,我找到问题所在了

1733191160980
按我这样修改一下就可以了,两个地方都要改喔
solve the problem of voice