关于模型和生成视频的小问题

Question

Opened this issue 8 months ago · 0 comments

Model

给出的MiraDiT模型图中，在Text-Spatial CrossAttention前后做了modulation。但是在源码中是对MLP做的modulation。这样是否会有一点不准确。

生成的视频中包含水印的现象似乎挺明显的。比如：

甚至两边都会有

在您给出的mira-384-v0.mp4这个demo中，第一行的前两个也能看到水印
我认为可能是训练数据导致的问题，比如MiraData给出的样例：000000010121_msqgQmymo6U-000002.mp4，就有水印