Computer Vision
搜索文档
无需昂贵设备,单目方案生成超逼真3D头像,清华&IDEA新研究入选CVPR2025
量子位· 2025-05-22 22:29
核心观点 - HRAvatar是一种基于单目视频的3D高斯头像重建方法,通过可学习形变基和线性蒙皮技术实现灵活且精确的几何变形,并提升重建质量[1] - 该方法解决了现有3D高斯方法在几何变形灵活性、表情追踪准确性和真实重光照方面的三大限制[4][5] - HRAvatar在实验数据集中所有指标上均优于现有方法,并达到155 FPS的实时性能[24][25] - 相关研究论文已被CVPR 2025录用,代码已全面开源[2][35] 技术突破 几何变形 - 采用可学习的形变基与混合蒙皮权重策略,实现高斯点从标准姿态到各种表情和姿态的灵活变形[6][12] - 类似FLAME模型,引入形状基、表情基和姿态基三个可学习属性建模几何位移[13] - 依赖FLAME模型的几何与形变先验进行初始化,加速训练收敛[15] 表情追踪 - 提出端到端的表情编码器,更精确提取表情参数[10] - 编码器与3D头像重建联合优化,利用高斯重建损失进行监督[11] 外观建模 - 将外观分解为反照率、粗糙度和菲涅尔基础反射率三个属性,采用BRDF物理渲染模型进行着色[16] - 引入SplitSum近似技术对环境光照图进行预计算,实现高质量实时渲染[17] - 使用伪真实反照率监督渲染反照率,限制粗糙度和基础反射率范围以获得更真实材质[22] 实验结果 - 在INSTA、HDTF和自采集数据集上测试,HRAvatar在PSNR、MAE、SSIM和LPIPS指标上均优于现有方法[23][24] - 具体数据:INSTA数据集PSNR 30.36、MAE 0.845、SSIM 0.9482、LPIPS 0.0569;HDTF数据集PSNR 28.55、MAE 1.373、SSIM 0.9089、LPIPS 0.0825[26] - 消融实验显示完整模型性能最优,去除任何组件都会导致指标下降[32] 应用场景 - 重建的头像化身可进行驱动、在新环境光下重光照或简单材质编辑[28] - 适用于电影、游戏、沉浸式会议、AR/VR等领域[4]
ICML 2025 Spotlight | 用傅里叶分解探讨图像对抗扰动,代码已开源
机器之心· 2025-05-18 12:25
研究背景 - 对抗样本通过微小扰动生成,难以被人眼察觉但显著降低深度学习模型性能,对计算机视觉领域模型安全性和鲁棒性构成重大挑战[5] - 现有对抗净化技术分为基于训练的方法和基于扩散模型的方法,前者需大量训练数据和时间,后者不依赖训练数据且泛化能力更强[5] - 对抗净化在自动驾驶、金融分析和医疗影像等安全关键领域尤为重要,可降低对抗攻击威胁并提升系统整体安全性[5] 动机和理论分析 - 现有策略在像素空间无法解耦干净像素与对抗扰动,导致破坏扰动时损害原始图像语义信息[7] - 对抗扰动更倾向于破坏高频幅度谱和相位谱,低频信息对扰动更鲁棒[7] - 相位谱被噪声破坏速度更快,逆向过程中保留相位谱非常关键[12] 方法 - 利用傅里叶分解技术将图像分解为幅度谱和相位谱,通过滤波器保留低频幅度谱信息[14][15] - 将估计图像低频相位谱投影到输入图像低频相位谱范围内,避免直接保留扰动[16] - 通过逆离散傅里叶变换将更新后的幅度谱和相位谱结合,获得时间域表示[16] 实验效果 CIFAR10 - 在WideResNet-28-10模型上,标准准确率94.14±1.17,鲁棒准确率93.75±0.80,均优于SOTA方法[18] - 在WideResNet-70-16模型上,标准准确率94.92±0.39,鲁棒准确率92.77±0.58,表现最佳[18] ImageNet - 使用ResNet-50分类器,标准准确率77.15±1.57,鲁棒准确率65.04+2.54,显著优于其他方法[19] 可视化 - 净化后图像与原始干净图像在视觉上最为相似,联合分布也最接近原始图像[20] 未来方向 - 探索更有效的图像分解手段以更好解耦对抗扰动和语义信息[21] - 提供更深入的理论解释以进一步优化对抗净化效果[21]
CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
机器之心· 2025-05-04 12:57
超分辨率技术发展 - 超分辨率技术(SR)已成为计算机视觉领域重要挑战,应用场景包括医疗影像、卫星遥感、视频监控和游戏渲染等[1] - 传统深度学习模型(如SRCNN、EDSR)在固定放大倍数表现优异,但无法支持任意放大尺度或在大倍率下出现细节模糊[1] - 扩散模型能恢复高频细节但推理速度慢,难以满足实时需求[1] DiffFNO技术框架 - 由三大核心组件构成:加权傅里叶神经算子(WFNO)、门控融合机制、自适应ODE求解器[2][5] - WFNO通过频域卷积捕获全局信息,可学习频率权重放大高频分量,相比普通FNO在大倍率超分中PSNR提升0.3–0.5 dB[9][10] - 门控融合机制并行引入轻量化注意力算子(AttnNO),动态结合谱域与空域特征[5][12] - 自适应ODE求解器将扩散逆过程转化为确定性ODE,推理步数从1000步降至30步(减少33倍),推理时间从266 ms缩短至141 ms[15] 性能表现 - 在DIV2K等五大数据集上PSNR领先SOTA方法2~4 dB,大倍数放大(×8、×12)优势更显著[17] - 定性结果显示对建筑细节、植物纹理、动物皮毛等高频结构复原出色,边缘锐利且伪影少[20] - 消融研究表明:去除模式重平衡导致PSNR下降0.4 dB,去除AttnNO影响局部纹理,去除ATS会使推理步数回升至千步级[23] 技术突破 - 首次实现支持任意连续倍率(如2.1、11.5倍)的超分辨率重建[2] - 通过神经算子赋能扩散架构,打破"高质量重建"与"快速推理"矛盾[1][23] - 采用全模式保留策略,兼顾图片整体解构与局部细节[18] 学术认可 - 研究成果入选CVPR 2025 Oral报告[2] - 论文已发布于arXiv(编号2411.09911)并提供开源项目主页[7]