关于生成视频抖动

Question

关于生成视频抖动

Opened this issue 6 months ago · 0 comments

感谢您们出色的工作，但我注意到一些小小的问题，我想是否能在以下几个角度和您进行讨论：1. 我注意到您们相当于使用显式关键点作为条件，在类似FOMM / LivePortrait / follow your emjio这类的工作中，都采用了一个小网络来将关键点进行隐式表示，这样是否可以降低由于drive视频检测到的关键点本身抖动带来的偏差（生成视频很抖动）；2. 在Cross Attn层加入Clip特征是否有助于人脸细节的生成，或许也能降低一些推理时降噪步数；3. 先前的模型会时不时有奇怪的手生成出来，能否通过将VFHQ / Vecelvhq清洗一下进行微调来修复这个问题呢？4. 现在的模型推理时实在是太慢了，诚然，也许LCM之类的技术或许能进一步大幅降低推理时间；但出于一些别的考虑，这个模型本身是否能做的更小一些呢？