CVPR 2025:单图秒变专业影棚,几何/材质/光影全搞定,数据训练代码全开源
量子位·2025-04-02 15:40
核心观点 - Neural LightRig创新性地利用图像扩散模型生成虚拟多光照图像,解决单图估计法线和PBR材质的不确定性问题 [4] - 该方法在CVPR 2025被接收,实验表现全面超越现有先进方法,平均角度误差显著降低至6.413° [3][12][14] - 技术适用于AR、VR和数字内容创作等领域,展现出良好的实际应用潜力 [13] 技术方法 - 多光照图像生成:通过微调预训练扩散模型生成一致性多光照图像序列,减少单图估计不确定性 [6] - 采用混合条件策略(通道级拼接+参考注意力机制)保证颜色和纹理一致性 [6] - 双阶段微调策略:先稳定训练初始层,再微调整个模型提升质量 [6] - G-buffer重建模型:基于U-Net架构回归模型,精确估计法线和材质属性(反照率、粗糙度、金属性) [9] - 显式光照条件输入:球面坐标编码光源位置关联图像变化 [10] - 优化目标:余弦相似度+MSE损失联合优化法线估计,MSE优化材质估计 [11] - 数据增强策略:随机降质、亮度调整等提升泛化能力 [11] 实验表现 - 法线估计:平均角度误差6.413°(对比基线RGB+X的14.847°),38.656%样本误差≤3°(基线仅11.676%) [12][14] - 材质估计与渲染:精准估计反照率等属性,生成逼真重光照效果 [14][16] - 泛化能力:在真实世界图像中表现突出,适用于AR/VR等场景 [13] 开源资源 - 代码、数据集、预训练模型及论文已公开,涵盖GitHub、Hugging Face和项目主页 [17]