menyifang/MIMO

我看了论文有点蒙蔽,有可以解答的朋友吗

Opened this issue · 0 comments

我有两点疑惑,第一个是他的每一帧是逐帧生成的吗,第二个是他只借助一张图像就能生成这个和ipadapter有什么区别:

关于图像本身的一致性保障:
在人类编码中,通过结构化运动表示,使用可变形人体模型的顶点锚定潜在代码来表示 3D 运动,建立了从潜在代码到不同视频帧中 3D 人体表面的 2D 渲染的对应关系,使得运动表示更具一致性。
对于身份表示,通过使用预训练的人体重定位模型将人体图像转换为标准 A - pose 的规范结果,再输入 ID 编码器获得身份代码,从而实现了身份和运动属性的完全解纠缠,保障了图像在身份属性上的一致性。