Workflow
无需昂贵设备,单目方案生成超逼真3D头像,清华&IDEA新研究入选CVPR2025
量子位·2025-05-22 22:29

核心观点 - HRAvatar是一种基于单目视频的3D高斯头像重建方法,通过可学习形变基和线性蒙皮技术实现灵活且精确的几何变形,并提升重建质量[1] - 该方法解决了现有3D高斯方法在几何变形灵活性、表情追踪准确性和真实重光照方面的三大限制[4][5] - HRAvatar在实验数据集中所有指标上均优于现有方法,并达到155 FPS的实时性能[24][25] - 相关研究论文已被CVPR 2025录用,代码已全面开源[2][35] 技术突破 几何变形 - 采用可学习的形变基与混合蒙皮权重策略,实现高斯点从标准姿态到各种表情和姿态的灵活变形[6][12] - 类似FLAME模型,引入形状基、表情基和姿态基三个可学习属性建模几何位移[13] - 依赖FLAME模型的几何与形变先验进行初始化,加速训练收敛[15] 表情追踪 - 提出端到端的表情编码器,更精确提取表情参数[10] - 编码器与3D头像重建联合优化,利用高斯重建损失进行监督[11] 外观建模 - 将外观分解为反照率、粗糙度和菲涅尔基础反射率三个属性,采用BRDF物理渲染模型进行着色[16] - 引入SplitSum近似技术对环境光照图进行预计算,实现高质量实时渲染[17] - 使用伪真实反照率监督渲染反照率,限制粗糙度和基础反射率范围以获得更真实材质[22] 实验结果 - 在INSTA、HDTF和自采集数据集上测试,HRAvatar在PSNR、MAE、SSIM和LPIPS指标上均优于现有方法[23][24] - 具体数据:INSTA数据集PSNR 30.36、MAE 0.845、SSIM 0.9482、LPIPS 0.0569;HDTF数据集PSNR 28.55、MAE 1.373、SSIM 0.9089、LPIPS 0.0825[26] - 消融实验显示完整模型性能最优,去除任何组件都会导致指标下降[32] 应用场景 - 重建的头像化身可进行驱动、在新环境光下重光照或简单材质编辑[28] - 适用于电影、游戏、沉浸式会议、AR/VR等领域[4]