Computer Vision - 财报，业绩电话会，研报，新闻

Computer Vision

搜索文档

无需昂贵设备，单目方案生成超逼真3D头像，清华＆IDEA新研究入选CVPR2025

量子位· 2025-05-22 22:29

核心观点 - HRAvatar是一种基于单目视频的3D高斯头像重建方法，通过可学习形变基和线性蒙皮技术实现灵活且精确的几何变形，并提升重建质量[1] - 该方法解决了现有3D高斯方法在几何变形灵活性、表情追踪准确性和真实重光照方面的三大限制[4][5] - HRAvatar在实验数据集中所有指标上均优于现有方法，并达到155 FPS的实时性能[24][25] - 相关研究论文已被CVPR 2025录用，代码已全面开源[2][35] 技术突破几何变形 - 采用可学习的形变基与混合蒙皮权重策略，实现高斯点从标准姿态到各种表情和姿态的灵活变形[6][12] - 类似FLAME模型，引入形状基、表情基和姿态基三个可学习属性建模几何位移[13] - 依赖FLAME模型的几何与形变先验进行初始化，加速训练收敛[15] 表情追踪 - 提出端到端的表情编码器，更精确提取表情参数[10] - 编码器与3D头像重建联合优化，利用高斯重建损失进行监督[11] 外观建模 - 将外观分解为反照率、粗糙度和菲涅尔基础反射率三个属性，采用BRDF物理渲染模型进行着色[16] - 引入SplitSum近似技术对环境光照图进行预计算，实现高质量实时渲染[17] - 使用伪真实反照率监督渲染反照率，限制粗糙度和基础反射率范围以获得更真实材质[22] 实验结果 - 在INSTA、HDTF和自采集数据集上测试，HRAvatar在PSNR、MAE、SSIM和LPIPS指标上均优于现有方法[23][24] - 具体数据：INSTA数据集PSNR 30.36、MAE 0.845、SSIM 0.9482、LPIPS 0.0569；HDTF数据集PSNR 28.55、MAE 1.373、SSIM 0.9089、LPIPS 0.0825[26] - 消融实验显示完整模型性能最优，去除任何组件都会导致指标下降[32] 应用场景 - 重建的头像化身可进行驱动、在新环境光下重光照或简单材质编辑[28] - 适用于电影、游戏、沉浸式会议、AR/VR等领域[4]

ICML 2025 Spotlight | 用傅里叶分解探讨图像对抗扰动，代码已开源

机器之心· 2025-05-18 12:25

研究背景 - 对抗样本通过微小扰动生成，难以被人眼察觉但显著降低深度学习模型性能，对计算机视觉领域模型安全性和鲁棒性构成重大挑战[5] - 现有对抗净化技术分为基于训练的方法和基于扩散模型的方法，前者需大量训练数据和时间，后者不依赖训练数据且泛化能力更强[5] - 对抗净化在自动驾驶、金融分析和医疗影像等安全关键领域尤为重要，可降低对抗攻击威胁并提升系统整体安全性[5] 动机和理论分析 - 现有策略在像素空间无法解耦干净像素与对抗扰动，导致破坏扰动时损害原始图像语义信息[7] - 对抗扰动更倾向于破坏高频幅度谱和相位谱，低频信息对扰动更鲁棒[7] - 相位谱被噪声破坏速度更快，逆向过程中保留相位谱非常关键[12] 方法 - 利用傅里叶分解技术将图像分解为幅度谱和相位谱，通过滤波器保留低频幅度谱信息[14][15] - 将估计图像低频相位谱投影到输入图像低频相位谱范围内，避免直接保留扰动[16] - 通过逆离散傅里叶变换将更新后的幅度谱和相位谱结合，获得时间域表示[16] 实验效果 CIFAR10 - 在WideResNet-28-10模型上，标准准确率94.14±1.17，鲁棒准确率93.75±0.80，均优于SOTA方法[18] - 在WideResNet-70-16模型上，标准准确率94.92±0.39，鲁棒准确率92.77±0.58，表现最佳[18] ImageNet - 使用ResNet-50分类器，标准准确率77.15±1.57，鲁棒准确率65.04+2.54，显著优于其他方法[19] 可视化 - 净化后图像与原始干净图像在视觉上最为相似，联合分布也最接近原始图像[20] 未来方向 - 探索更有效的图像分解手段以更好解耦对抗扰动和语义信息[21] - 提供更深入的理论解释以进一步优化对抗净化效果[21]

Adversarial Purification

Fourier Decomposition

Diffusion Model

Computer Vision

Adversarial Purification

Fourier Decomposition

Diffusion Model

Computer Vision

CVPR 2025 Oral | DiffFNO：傅里叶神经算子助力扩散，开启任意尺度超分辨率新篇章

机器之心· 2025-05-04 12:57

超分辨率技术发展 - 超分辨率技术（SR）已成为计算机视觉领域重要挑战，应用场景包括医疗影像、卫星遥感、视频监控和游戏渲染等[1] - 传统深度学习模型（如SRCNN、EDSR）在固定放大倍数表现优异，但无法支持任意放大尺度或在大倍率下出现细节模糊[1] - 扩散模型能恢复高频细节但推理速度慢，难以满足实时需求[1] DiffFNO技术框架 - 由三大核心组件构成：加权傅里叶神经算子（WFNO）、门控融合机制、自适应ODE求解器[2][5] - WFNO通过频域卷积捕获全局信息，可学习频率权重放大高频分量，相比普通FNO在大倍率超分中PSNR提升0.3–0.5 dB[9][10] - 门控融合机制并行引入轻量化注意力算子（AttnNO），动态结合谱域与空域特征[5][12] - 自适应ODE求解器将扩散逆过程转化为确定性ODE，推理步数从1000步降至30步（减少33倍），推理时间从266 ms缩短至141 ms[15] 性能表现 - 在DIV2K等五大数据集上PSNR领先SOTA方法2~4 dB，大倍数放大（×8、×12）优势更显著[17] - 定性结果显示对建筑细节、植物纹理、动物皮毛等高频结构复原出色，边缘锐利且伪影少[20] - 消融研究表明：去除模式重平衡导致PSNR下降0.4 dB，去除AttnNO影响局部纹理，去除ATS会使推理步数回升至千步级[23] 技术突破 - 首次实现支持任意连续倍率（如2.1、11.5倍）的超分辨率重建[2] - 通过神经算子赋能扩散架构，打破"高质量重建"与"快速推理"矛盾[1][23] - 采用全模式保留策略，兼顾图片整体解构与局部细节[18] 学术认可 - 研究成果入选CVPR 2025 Oral报告[2] - 论文已发布于arXiv（编号2411.09911）并提供开源项目主页[7]