生成的视频没有声音
Opened this issue · 17 comments
本人使用windows在本地部署的,除了修改requirement的mmcv-2.1.0-cp39-cp39-win_amd64.whl和手动下载了batch-face放在tango环境下之外,其他都按步骤来的。可以打开gradio,生成的视频与音频一样长,但是没有声音。
ffmpeg你没有安装好,你可能缺少了x264的编码,如果你是conda,你可以用
conda install-c conda-forge ffmpeg
ffmpeg你没有安装好,你可能缺少了x264的编码,如果你是conda,你可以用 conda install-c conda-forge ffmpeg
感谢大佬回复,但是用conda install -c conda-forge ffmpeg下载了,也手动下载+添加环境变量了,都不行
metoo
如果x264没装好 你去gradio上 样例视频会出现显示不出来
你这个是显示完整了的,因为gradio启动的时候,好像这些样例会ffmpeg编码一下,我之前没有安装带x264的ffmpeg,这些视频都不会显示出来,然后视频可以推理出来,也是没有声音,重新安装了带x264的ffmpeg,一切都好了。
看看你们的版本,以下是我的版本:
Python 3.9.18
ffmpeg version 7.1 Copyright (c) 2000-2024 the FFmpeg developers
built with gcc 13.3.0 (conda-forge gcc 13.3.0-1)
configuration: --prefix=/opt/conda/envs/tango --cc=/home/conda/feedstock_root/build_artifacts/ffmpeg_1728332263724/_build_env/bin/x86_64-conda-linux-gnu-cc --cxx=/home/conda/feedstock_root/build_artifacts/ffmpeg_1728332263724/_build_env/bin/x86_64-conda-linux-gnu-c++ --nm=/home/conda/feedstock_root/build_artifacts/ffmpeg_1728332263724/_build_env/bin/x86_64-conda-linux-gnu-nm --ar=/home/conda/feedstock_root/build_artifacts/ffmpeg_1728332263724/_build_env/bin/x86_64-conda-linux-gnu-ar --disable-doc --enable-openssl --enable-demuxer=dash --enable-hardcoded-tables --enable-libfreetype --enable-libharfbuzz --enable-libfontconfig --enable-libopenh264 --enable-libdav1d --disable-gnutls --enable-libmp3lame --enable-libvpx --enable-libass --enable-pthreads --enable-vaapi --enable-libopenvino --enable-gpl --enable-libx264 --enable-libx265 --enable-libaom --enable-libsvtav1 --enable-libxml2 --enable-pic --enable-shared --disable-static --enable-version3 --enable-zlib --enable-libopus --pkg-config=/home/conda/feedstock_root/build_artifacts/ffmpeg_1728332263724/_build_env/bin/pkg-config
libavutil 59. 39.100 / 59. 39.100
libavcodec 61. 19.100 / 61. 19.100
libavformat 61. 7.100 / 61. 7.100
libavdevice 61. 3.100 / 61. 3.100
libavfilter 10. 4.100 / 10. 4.100
libswscale 8. 3.100 / 8. 3.100
libswresample 5. 3.100 / 5. 3.100
libpostproc 58. 3.100 / 58. 3.100
Universal media converter
(tango) root@abd144ff4f98:/# pip list
Package Version Editable project location
absl-py 2.1.0
addict 2.4.0
aiofiles 23.2.1
annotated-types 0.7.0
antlr4-python3-runtime 4.9.3
anyio 4.6.2.post1
attrs 24.2.0
audioread 3.0.1
autocommand 2.2.2
av 11.0.0
backports.tarfile 1.2.0
basicsr 1.4.2
batch-face 1.5.0.dev0
certifi 2024.8.30
cffi 1.17.1
charset-normalizer 3.4.0
chumpy 0.70
click 8.1.7
ConfigArgParse 1.7
contourpy 1.3.0
cycler 0.12.1
Cython 3.0.11
decorator 4.4.2
decord 0.6.0
diffusers 0.24.0
easydict 1.13
einops 0.8.0
eval_type_backport 0.2.0
exceptiongroup 1.2.2
facexlib 0.3.0
fastapi 0.115.4
ffmpeg-python 0.2.0
ffmpy 0.4.0
filelock 3.16.1
filterpy 1.4.5
flatbuffers 24.3.25
fonttools 4.54.1
freetype-py 2.5.1
fsspec 2024.10.0
ftfy 6.3.1
future 1.0.0
gfpgan 1.3.8
gradio 4.44.1
gradio_client 1.3.0
grpcio 1.67.1
h11 0.14.0
httpcore 1.0.6
httpx 0.27.2
huggingface-hub 0.26.2
idna 3.10
igraph 0.11.8
imageio 2.33.0
imageio-ffmpeg 0.4.9
importlib_metadata 8.5.0
importlib_resources 6.4.5
inflect 7.3.1
jaraco.collections 5.1.0
jaraco.context 5.3.0
jaraco.functools 4.0.1
jaraco.text 3.12.1
jax 0.4.30
jaxlib 0.4.30
Jinja2 3.1.4
joblib 1.4.2
json-tricks 3.17.3
kiwisolver 1.4.7
lazy_loader 0.4
librosa 0.9.2
llvmlite 0.43.0
lmdb 1.5.1
Markdown 3.7
markdown-it-py 3.0.0
MarkupSafe 2.1.5
matplotlib 3.9.2
mdurl 0.1.2
mediapipe 0.10.11
ml_dtypes 0.5.0
mmcv 2.1.0
mmdet 3.2.0
mmengine 0.10.5
mmpose 0.28.0
more-itertools 10.3.0
moviepy 1.0.3
mpmath 1.3.0
msgpack 1.1.0
munkres 1.1.4
networkx 3.2.1
numba 0.60.0
numpy 1.23.5
omegaconf 2.2.3
open-clip-torch 2.20.0
opencv-contrib-python 4.8.1.78
opencv-python 4.8.1.78
opencv-transforms 0.0.6
opt_einsum 3.4.0
orjson 3.10.11
packaging 24.1
pandas 2.2.3
Pillow 9.5.0
pip 24.2
platformdirs 4.3.6
plyfile 1.1
pooch 1.8.2
proglog 0.1.10
protobuf 3.20.3
pycocotools 2.0.8
pycparser 2.22
pydantic 2.9.2
pydantic_core 2.23.4
pydub 0.25.1
pyglet 2.0.18
Pygments 2.18.0
PyOpenGL 3.1.0
pyparsing 3.2.0
pyrender 0.1.45
python-dateutil 2.9.0.post0
python-multipart 0.0.17
pytz 2024.2
PyWavelets 1.6.0
PyYAML 6.0.2
realesrgan 0.3.0 /github/TANGO/Wav2Lip-HD/Real-ESRGAN
regex 2024.11.6
requests 2.32.3
resampy 0.4.3
rich 13.9.4
ruff 0.7.3
safetensors 0.4.5
scikit-image 0.21.0
scikit-learn 1.3.2
scipy 1.11.4
semantic-version 2.10.0
sentencepiece 0.2.0
setuptools 75.1.0
shapely 2.0.6
shellingham 1.5.4
six 1.16.0
sixdrepnet 0.1.6
smplx 0.1.28
sniffio 1.3.1
sounddevice 0.5.1
soundfile 0.12.1
soxr 0.5.0.post1
starlette 0.41.2
sympy 1.13.3
tb-nightly 2.19.0a20241111
tensorboard-data-server 0.7.2
tensorboardX 2.6.2.2
termcolor 2.5.0
terminaltables 3.1.10
texttable 1.7.0
threadpoolctl 3.5.0
tifffile 2024.8.30
timm 1.0.11
tokenizers 0.13.3
tomli 2.0.2
tomlkit 0.12.0
torch 2.1.0+cu118
torchaudio 2.1.0+cu118
torchgeometry 0.1.2
torchvision 0.16.0+cu118
tqdm 4.67.0
transformers 4.30.2
trimesh 4.5.2
triton 2.1.0
typeguard 4.3.0
typer 0.13.0
typing_extensions 4.12.2
tzdata 2024.2
urllib3 2.2.3
uvicorn 0.32.0
wcwidth 0.2.13
websockets 12.0
Werkzeug 3.1.3
wget 3.2
wheel 0.44.0
xtcocotools 1.14.3
yacs 0.1.8
yapf 0.40.2
zipp 3.21.0
经过1个月的摸索,目前tango已经正常跑起来了,基本上所有的坑基本上也被我采完了,以下是一些总结,和解决问题的方式。
本人电脑配置:显存16G 4060TI,内存32G。
推荐最低配置:显存16G 4060TI,内存32G。
如果只是学习:显存8-12G ,内存16G。
1 安装的问题:
1.1 依赖问题:mmcv 在项目的依赖中只提供了linux版本的,所以本地跑的朋友会报错 (解决思路:修改为window的,其他人帖子里面有解决办法。)
1.2 执行app.py 时,下载的文件过大,每次都会重复下载等问题。(解决思路:分批下载)
1.3 本地window运行的时候,因为linux和本地的文件夹路径等问题不一样,导致本地create_graph.py执行的时候报错问题。(解决思路:判断如果是window,则创建一个新的储存文件的地址)
1.4 以及本地 window中app.py执行 wav2lip中的inference.py文件时报错问题。(解决思路:linux和window命令是有区别的)
1.5 项目部署好之后只能本地访问,不能非127.0.0.1和localhost访问问题。(解决思路:改为0.0.0.0即可)
2 使用问题:
2.1 默认分辨率太低画面非常模糊的问题(解决思路:太简单了,不解释了,相信你会!!!)
2.2 默认生成时间只有10秒的问题。(解决思路:太简单了,不解释了,相信你会!!!)
2.3 参考视频默认为20秒的项目问题。(解决思路:太简单了,不解释了,相信你会!!!)
2.4 生成视频的时候容易爆显存和内存的问题。(解决思路:生成的批次改为1即可)
2.5 视频可能不连贯问题。(解决思路:2个方法:方法1作者有在别人帖子说,方法2,说了你也不会改。本人用了方法1)
3 目前我本地window效果:
3.1 参考视频10S+2.5分钟音频+720*1280分辨率 需要13-15分钟左右生成 .
3.2 目前效果: 参考视频10秒+5分钟音频 在我的电脑上不会爆显存和内存。(云端更不会)
3.3 生成的视频效果可以联系本人后微信发你看看。(有一定的局限性)
4 说明
4.1 仅提供安装的文档,以及代码修改的地方,仅做技术培训。(不懂随时问我,晚上一般都有时间)
4.2 不提供代码整合包!不提供代码整合包!不提供代码整合包!
4.3 可以远程帮忙,但必须是晚上或者周末(因为我和你一样白天要上班)。
4.4 完全不懂技术的,可以提供远程全套安装(价格再谈)。
4.5 有任何疑惑可以聊完之后再付费。(单纯的了解tango项目情况,不收费!!!)
4.6 linux和window我都跑通了。(可以提供参考意见)
4.7 对于学生,可以教你学习这个数字人,带你理解这个tango项目的逻辑(我知道的都可以告诉你,不懂就问,我看到就回复)。
4.7 正在做 批量排队生成数字人视频+高清视频这部分(敬请期待!!!)
5 收费标准
5.1 388元。(可怜一下吧!我也花了好长的时间,采了各种坑,300多块钱,超值了!!!)
6 联系方式:
494456995@qq.com 可以给我发邮箱或者加我QQ。
也有可能是wav2lip 没有正常运行,音频是在wav2lip那一步加的。
也有可能是wav2lip 没有正常运行,音频是在wav2lip那一步加的。
好的,谢谢,我试试看单独尝试wav2lip
也有可能是wav2lip 没有正常运行,音频是在wav2lip那一步加的。
是的,就是这个原因,我在本地跑的时候,花了两天时间,终于找到了这个比较坑的原因,这个bug有点看起来很明显,实则也很明显,但是不细心的话不是一般的难找。
ffmpeg你没有安装好,你可能缺少了x264的编码,如果你是conda,你可以用 conda install-c conda-forge ffmpeg
感谢大佬回复,但是用conda install -c conda-forge ffmpeg下载了,也手动下载+添加环境变量了,都不行
你解决了么,我找到问题所在了