实现高时序一致性(包括衣服的一致性、人脸、四肢)的换衣视频生成或者直接替换视频中人物的衣物。 现有的视频换衣大多直接沿用了Animate Anyone中的ReferenceNet结构,存在稳定性较差、时序抖动严重,人脸、衣服一致性差等问题,并且生成过程中资源开销较大。其生成的时间窗口或称image token数较低,无法生成长时间(超过30秒以上)的高一致性视频。
Diffusion Models、Video Generation and Editing、Human Image Animation
-
MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling
-
Try-on: Excavating Spatial-temporal Tunnels for High-quality Virtual Try-on in Videos
-
AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario
-
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos
从单图人体输入图实现可驱动的人体重建,同时要求重建出的人体具有高清晰度的纹理材质。 现有的单图人体重建大多关注于更精确的几何表面重建,通常利用Multi-View Diffusion模型幻想出两个视角或四个视角的图像,然后通过“脑补”的图像估计出人体的SDF或隐式表面,最后还原出高细节的人体Mesh。 但在实践中发现,这种pipeline构建出的Mesh难以实现高精度的骨骼绑定(Rigging),更有甚者无法实现骨骼绑定,从而导致现有单张图重建方法在Animation层面上存在较大困难与挑战。
Diffusion Models、SMPL、Single-Image Human Reconstruction
-
SIFU: Side-view Conditioned Implicit Function for Real-world Usable Clothed Human Reconstruction
-
SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion
利用Pose可控的人体视频生成模型对In-the-wild的单目视频实现pose增广,利用增广后的数据来提升单目视频3DGS人体重建的质量及稳定性。 目前,针对单目视频的3D Gaussian Splatting (3DGS)人体重建技术存在对输入数据敏感问题,特别是对In-the-wild的视频输入重建成功率较低。 这由多方面原因造成:首先,重建通常依赖事先的SMPL人体参数模型估计精度,估计精度差往往会导致高斯球优化困难、空洞、漂浮高斯球等问题。 其次,输入的in-the-wild视频存在拍摄方式、拍摄角度不理想,人体动作单调等特点,这将导致数据的可用信息不足,无法给重建过程提供充足的视角、pose信息,最终导致重建失败或结果不理想。 实践过程中发现,利用SOTA的单目3DGS重建手段(例如:HUGS)对youtube下载的视频进行人体重建,重建结果的可用率不高于30%,这也反映了目前的重建手段对于in-the-wild的数据适应性较差,存在极大的改进空间。 前者一般通过引入更精确的人体关键点来解决,后者目前还未见理想的解决方案。本课题目标是用视频生成模型对3DGS的重建过程提供一定的生成能力来改善这一现状。
Diffusion Models、SMPL、Monocular Video Human Reconstruction
-
HAHA: Highly Articulated Gaussian Human Avatars with Textured Mesh Prior
-
3D Gaussian Splatting for Real-Time Radiance Field Rendering
任何问题请邮件:xuanhong chen
对研究项目感兴趣的同学也可以邮件咨询,欢迎对于虚拟人、电影换脸、人脸重建、AIGC、AI for Science感兴趣的同学前来咨询。