核心观点 - 清华大学与IDEA研究院提出GUAVA框架,仅需0.1秒即可从单张图像创建可驱动的上半身3D高斯化身,支持实时动画和渲染 [1][5][37] - GUAVA是首个从单图生成3D化身的框架,无需多视角视频或单人训练,解决了现有方法在ID一致性、实时渲染和面部表情捕捉上的局限性 [5][9][12] - 实验显示GUAVA在PSNR(25.87)、SSIM(0.9000)、LPIPS(0.0813)等指标上全面优于2D/3D方法,重建速度达0.1秒,渲染帧率52.21 FPS [22][23][24] 技术方法 模型架构 - 引入EHM(Expressive Human Model)结合SMPLX与FLAME模型,通过两阶段追踪实现单图到姿态的精确估计,提升面部表情和手势捕捉能力 [12][13][36] - 采用双分支模型:模板高斯分支预测几何结构,UV高斯分支通过逆纹理映射生成精细纹理,组合后形成完整的Ubody高斯 [14][15] - 神经细化器优化渲染细节,最终支持基于新姿势参数的实时变形与动画 [16][17] 性能优势 - 重建效率:GUAVA仅需98毫秒完成重建,而3D方法ExAvatar需2.4小时,GaussianAvatar需1.3小时 [24] - 渲染质量:在自重演场景下PSNR达25.87,跨重演场景身份保留分数(IPS)0.5554,显著优于2D方法(如MagicPose PSNR仅21.25) [22][25][24] - 泛化能力:对未见区域和极端姿势表现鲁棒,克服了3D方法的伪影问题 [28][29] 实验验证 数据集与对比 - 训练集包含62万帧上半身视频,测试集覆盖58个ID,对比MagicPose、Champ等2D方法及GART等3D方法 [18][19][21] - 定量指标:PSNR、SSIM、LPIPS评估图像质量,ArcFace计算IPS衡量ID一致性 [20][30] 消融实验 - 移除神经细化器导致SSIM下降至0.8851,LPIPS增至0.1060;禁用逆纹理映射使PSNR降至25.65 [32] - 未使用EHM模型时PSNR为25.60,证明其对表情捕捉的关键作用 [32] 应用与资源 - 适用于电影、游戏、虚拟会议等领域,实现逼真且低成本的3D化身生成 [4] - 代码已开源,提供论文、项目主页及视频Demo [38]
一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025
量子位·2025-08-21 10:36