CogvideoX1.5的图生视频在降低分辨率进行推理后，生成的视频画面下侧全是条纹，微调后并没有改善

Question

CogvideoX1.5的图生视频在降低分辨率进行推理后，生成的视频画面下侧全是条纹，微调后并没有改善

Closed this issue 3 days ago · 7 comments

System Info / 系統信息

accelerate
bitsandbytes
transformers>=4.45.2
huggingface_hub
hf_transfer>=0.1.8
peft>=0.12.0
decord>=0.6.0
wandb
pandas
torch<2.5.0
torchvision<0.20.0
torchao>=0.5.0
sentencepiece>=0.2.0
imageio-ffmpeg>=0.5.1
numpy>=1.26.4

Information / 问题信息

The official example scripts / 官方的示例脚本
My own modified scripts / 我自己修改的脚本和任务

Reproduction / 复现过程

使用CogvideoX1.5-5B-I2V进行1024*576分辨率的图生视频时，生成的视频下侧全是条纹。

尝试低分辨率微调模型后，微调到3000 steps，效果没有改善，反而感觉加重，是不是要微调VAE才能解决？

下面我提供一个图片，第一行是原始模型生成的，后面四行的是微调500 1000 2000 3000后生成的视频，展示的均是视频前5帧

Expected behavior / 期待表现

现有模型通过训练后在不同分辨率下均可以正常生成视频

Answer 1 · 2024-12-24T07:19:07.000Z

关于你提到的这个问题中的这个分辨率并不在支持的分辨率内

如果你将分辨率调整为1024 * 768 有解决问题，很有可能是在模型不支持的分辨率下推理导致的问题。

Answer 2 · 2024-12-24T07:22:22.000Z

尝试低分辨率微调模型后
想知道这个地方是用什么方法微调，用了哪个脚本呢

Answer 3 · 2024-12-24T07:35:44.000Z

尝试低分辨率微调模型后
想知道这个地方是用什么方法微调，用了哪个脚本呢

使用的是cogvideox-factory的图生视频lora微调
脚本是这个：https://github.com/a-r-r-o-w/finetrainers/blob/main/training/train_image_to_video_lora.sh

Answer 4 · 2024-12-24T07:48:03.000Z

关于你提到的这个问题中的这个分辨率并不在支持的分辨率内如果你将分辨率调整为1024 * 768 有解决问题，很有可能是在模型不支持的分辨率下推理导致的问题。

嗯，我是想试试通过微调能否成功将分辨率范围进行扩展

Answer 5 · 2024-12-26T06:17:10.000Z

尝试低分辨率微调模型后
想知道这个地方是用什么方法微调，用了哪个脚本呢

使用的是cogvideox-factory的图生视频lora微调脚本是这个：https://github.com/a-r-r-o-w/finetrainers/blob/main/training/train_image_to_video_lora.sh

请问你微调 x1.5-i2v 的时候有遇到这个问题，我用官方的脚本总会遇到，跑不通
RuntimeError: shape '[1, 6, 2, 85, 2, 48, 2, 32]' is invalid for input of size 6789120

Answer 6 · 2024-12-26T07:29:19.000Z

尝试低分辨率微调模型后
想知道这个地方是用什么方法微调，用了哪个脚本呢

使用的是cogvideox-factory的图生视频lora微调脚本是这个：https://github.com/a-r-r-o-w/finetrainers/blob/main/training/train_image_to_video_lora.sh

请问你微调 x1.5-i2v 的时候有遇到这个问题，我用官方的脚本总会遇到，跑不通 RuntimeError: shape '[1, 6, 2, 85, 2, 48, 2, 32]' is invalid for input of size 6789120

我也是同样的问题

Answer 7 · 2024-12-26T11:05:46.000Z

尝试低分辨率微调模型后
想知道这个地方是用什么方法微调，用了哪个脚本呢

使用的是cogvideox-factory的图生视频lora微调脚本是这个：https://github.com/a-r-r-o-w/finetrainers/blob/main/training/train_image_to_video_lora.sh

请问你微调 x1.5-i2v 的时候有遇到这个问题，我用官方的脚本总会遇到，跑不通 RuntimeError: shape '[1, 6, 2, 85, 2, 48, 2, 32]' is invalid for input of size 6789120

应该是设置frame_buckets的问题，这个参数要是 (x-1)/4+1 后的结果能被2整除