Zejun-Yang/AniPortrait

关于生成视频抖动

Opened this issue · 0 comments

感谢您们出色的工作,但我注意到一些小小的问题,我想是否能在以下几个角度和您进行讨论:1. 我注意到您们相当于使用显式关键点作为条件,在类似FOMM / LivePortrait / follow your emjio这类的工作中,都采用了一个小网络来将关键点进行隐式表示,这样是否可以降低由于drive视频检测到的关键点本身抖动带来的偏差(生成视频很抖动);2. 在Cross Attn层加入Clip特征是否有助于人脸细节的生成,或许也能降低一些推理时降噪步数;3. 先前的模型会时不时有奇怪的手生成出来,能否通过将VFHQ / Vecelvhq清洗一下进行微调来修复这个问题呢?4. 现在的模型推理时实在是太慢了,诚然,也许LCM之类的技术或许能进一步大幅降低推理时间;但出于一些别的考虑,这个模型本身是否能做的更小一些呢?