CogvideoX1.5的图生视频在降低分辨率进行推理后,生成的视频画面下侧全是条纹,微调后并没有改善
Closed this issue · 7 comments
System Info / 系統信息
accelerate
bitsandbytes
transformers>=4.45.2
huggingface_hub
hf_transfer>=0.1.8
peft>=0.12.0
decord>=0.6.0
wandb
pandas
torch<2.5.0
torchvision<0.20.0
torchao>=0.5.0
sentencepiece>=0.2.0
imageio-ffmpeg>=0.5.1
numpy>=1.26.4
Information / 问题信息
- The official example scripts / 官方的示例脚本
- My own modified scripts / 我自己修改的脚本和任务
Reproduction / 复现过程
使用CogvideoX1.5-5B-I2V进行1024*576分辨率的图生视频时,生成的视频下侧全是条纹。
尝试低分辨率微调模型后,微调到3000 steps,效果没有改善,反而感觉加重,是不是要微调VAE才能解决?
下面我提供一个图片,第一行是原始模型生成的,后面四行的是微调500 1000 2000 3000后生成的视频,展示的均是视频前5帧
Expected behavior / 期待表现
现有模型通过训练后在不同分辨率下均可以正常生成视频
尝试低分辨率微调模型后
想知道这个地方是用什么方法微调,用了哪个脚本呢
尝试低分辨率微调模型后
想知道这个地方是用什么方法微调,用了哪个脚本呢
使用的是cogvideox-factory的图生视频lora微调
脚本是这个:https://github.com/a-r-r-o-w/finetrainers/blob/main/training/train_image_to_video_lora.sh
尝试低分辨率微调模型后
想知道这个地方是用什么方法微调,用了哪个脚本呢使用的是cogvideox-factory的图生视频lora微调 脚本是这个:https://github.com/a-r-r-o-w/finetrainers/blob/main/training/train_image_to_video_lora.sh
请问你微调 x1.5-i2v 的时候有遇到这个问题,我用官方的脚本总会遇到,跑不通
RuntimeError: shape '[1, 6, 2, 85, 2, 48, 2, 32]' is invalid for input of size 6789120
尝试低分辨率微调模型后
想知道这个地方是用什么方法微调,用了哪个脚本呢使用的是cogvideox-factory的图生视频lora微调 脚本是这个:https://github.com/a-r-r-o-w/finetrainers/blob/main/training/train_image_to_video_lora.sh
请问你微调 x1.5-i2v 的时候有遇到这个问题,我用官方的脚本总会遇到,跑不通 RuntimeError: shape '[1, 6, 2, 85, 2, 48, 2, 32]' is invalid for input of size 6789120
我也是同样的问题
尝试低分辨率微调模型后
想知道这个地方是用什么方法微调,用了哪个脚本呢使用的是cogvideox-factory的图生视频lora微调 脚本是这个:https://github.com/a-r-r-o-w/finetrainers/blob/main/training/train_image_to_video_lora.sh
请问你微调 x1.5-i2v 的时候有遇到这个问题,我用官方的脚本总会遇到,跑不通 RuntimeError: shape '[1, 6, 2, 85, 2, 48, 2, 32]' is invalid for input of size 6789120
应该是设置frame_buckets的问题,这个参数要是 (x-1)/4+1 后的结果能被2整除