Workflow
Computer Vision
icon
搜索文档
多样化大规模数据集!SceneSplat++:首个基于3DGS的综合基准~
自动驾驶之心· 2025-06-20 22:06
三维高斯溅射技术发展 - 三维高斯溅射(3DGS)成为最理想的三维表示方法,因其能联合编码场景的几何、外观和理解属性[2] - 视觉-语言推理是三维场景理解最具前景的方向,将视觉/几何属性与语言概念连接[2] - 现有方法分为三类:基于梯度的单场景优化、免优化的特征聚合、泛化方法[3] 评估基准创新 - 提出SceneSplat-Bench基准,包含1060个场景和325个语义类别,首次在三维空间评估性能[3] - 现有评估存在三大局限:样本量少(仅9-21个场景)、依赖训练视点、二维评估为主[4] - 基准测试显示泛化方法SceneSplat在f-mIoU指标上最高达0.354(ScanNet20)和0.338(Matterport3D)[24] 数据集突破 - 发布SceneSplat-49K数据集,包含46K个3DGS场景,总高斯数达29.24B,覆盖室内外环境[9][10] - 数据集平均质量达27.8dB PSNR和0.90 SSIM,几何误差仅0.061米,存储量8.36TB[10][12] - 包含12K个带视觉语言嵌入的场景,采用动态加权机制融合全局/局部特征[19] 技术性能比较 - 泛化方法SceneSplat运行时仅0.24分钟/场景,显著优于优化方法(76-621分钟)[5][24] - 免优化方法在效率(4-5.6分钟)和准确率上均优于优化方法,如Gradient-Weighted 3DGS在ScanNet20达0.418 f-mIoU[5][24] - 数据规模扩大使ScanNet++性能提升69%(f-mIoU从0.168到0.284)[28] 跨领域应用 - 室内训练模型可迁移至室外场景,零样本性能达0.263 mIoU,但特定领域数据仍关键[29] - 城市尺度数据集HoliCity包含6,300个伦敦场景,覆盖20平方公里,支持室外评估[17][22] - 合成数据Aria ASE贡献25K程序化室内场景,采用鱼眼图像校正技术[16]
无需昂贵设备,单目方案生成超逼真3D头像,清华&IDEA新研究入选CVPR2025
量子位· 2025-05-22 22:29
核心观点 - HRAvatar是一种基于单目视频的3D高斯头像重建方法,通过可学习形变基和线性蒙皮技术实现灵活且精确的几何变形,并提升重建质量[1] - 该方法解决了现有3D高斯方法在几何变形灵活性、表情追踪准确性和真实重光照方面的三大限制[4][5] - HRAvatar在实验数据集中所有指标上均优于现有方法,并达到155 FPS的实时性能[24][25] - 相关研究论文已被CVPR 2025录用,代码已全面开源[2][35] 技术突破 几何变形 - 采用可学习的形变基与混合蒙皮权重策略,实现高斯点从标准姿态到各种表情和姿态的灵活变形[6][12] - 类似FLAME模型,引入形状基、表情基和姿态基三个可学习属性建模几何位移[13] - 依赖FLAME模型的几何与形变先验进行初始化,加速训练收敛[15] 表情追踪 - 提出端到端的表情编码器,更精确提取表情参数[10] - 编码器与3D头像重建联合优化,利用高斯重建损失进行监督[11] 外观建模 - 将外观分解为反照率、粗糙度和菲涅尔基础反射率三个属性,采用BRDF物理渲染模型进行着色[16] - 引入SplitSum近似技术对环境光照图进行预计算,实现高质量实时渲染[17] - 使用伪真实反照率监督渲染反照率,限制粗糙度和基础反射率范围以获得更真实材质[22] 实验结果 - 在INSTA、HDTF和自采集数据集上测试,HRAvatar在PSNR、MAE、SSIM和LPIPS指标上均优于现有方法[23][24] - 具体数据:INSTA数据集PSNR 30.36、MAE 0.845、SSIM 0.9482、LPIPS 0.0569;HDTF数据集PSNR 28.55、MAE 1.373、SSIM 0.9089、LPIPS 0.0825[26] - 消融实验显示完整模型性能最优,去除任何组件都会导致指标下降[32] 应用场景 - 重建的头像化身可进行驱动、在新环境光下重光照或简单材质编辑[28] - 适用于电影、游戏、沉浸式会议、AR/VR等领域[4]
ICML 2025 Spotlight | 用傅里叶分解探讨图像对抗扰动,代码已开源
机器之心· 2025-05-18 12:25
研究背景 - 对抗样本通过微小扰动生成,难以被人眼察觉但显著降低深度学习模型性能,对计算机视觉领域模型安全性和鲁棒性构成重大挑战[5] - 现有对抗净化技术分为基于训练的方法和基于扩散模型的方法,前者需大量训练数据和时间,后者不依赖训练数据且泛化能力更强[5] - 对抗净化在自动驾驶、金融分析和医疗影像等安全关键领域尤为重要,可降低对抗攻击威胁并提升系统整体安全性[5] 动机和理论分析 - 现有策略在像素空间无法解耦干净像素与对抗扰动,导致破坏扰动时损害原始图像语义信息[7] - 对抗扰动更倾向于破坏高频幅度谱和相位谱,低频信息对扰动更鲁棒[7] - 相位谱被噪声破坏速度更快,逆向过程中保留相位谱非常关键[12] 方法 - 利用傅里叶分解技术将图像分解为幅度谱和相位谱,通过滤波器保留低频幅度谱信息[14][15] - 将估计图像低频相位谱投影到输入图像低频相位谱范围内,避免直接保留扰动[16] - 通过逆离散傅里叶变换将更新后的幅度谱和相位谱结合,获得时间域表示[16] 实验效果 CIFAR10 - 在WideResNet-28-10模型上,标准准确率94.14±1.17,鲁棒准确率93.75±0.80,均优于SOTA方法[18] - 在WideResNet-70-16模型上,标准准确率94.92±0.39,鲁棒准确率92.77±0.58,表现最佳[18] ImageNet - 使用ResNet-50分类器,标准准确率77.15±1.57,鲁棒准确率65.04+2.54,显著优于其他方法[19] 可视化 - 净化后图像与原始干净图像在视觉上最为相似,联合分布也最接近原始图像[20] 未来方向 - 探索更有效的图像分解手段以更好解耦对抗扰动和语义信息[21] - 提供更深入的理论解释以进一步优化对抗净化效果[21]
CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
机器之心· 2025-05-04 12:57
超分辨率技术发展 - 超分辨率技术(SR)已成为计算机视觉领域重要挑战,应用场景包括医疗影像、卫星遥感、视频监控和游戏渲染等[1] - 传统深度学习模型(如SRCNN、EDSR)在固定放大倍数表现优异,但无法支持任意放大尺度或在大倍率下出现细节模糊[1] - 扩散模型能恢复高频细节但推理速度慢,难以满足实时需求[1] DiffFNO技术框架 - 由三大核心组件构成:加权傅里叶神经算子(WFNO)、门控融合机制、自适应ODE求解器[2][5] - WFNO通过频域卷积捕获全局信息,可学习频率权重放大高频分量,相比普通FNO在大倍率超分中PSNR提升0.3–0.5 dB[9][10] - 门控融合机制并行引入轻量化注意力算子(AttnNO),动态结合谱域与空域特征[5][12] - 自适应ODE求解器将扩散逆过程转化为确定性ODE,推理步数从1000步降至30步(减少33倍),推理时间从266 ms缩短至141 ms[15] 性能表现 - 在DIV2K等五大数据集上PSNR领先SOTA方法2~4 dB,大倍数放大(×8、×12)优势更显著[17] - 定性结果显示对建筑细节、植物纹理、动物皮毛等高频结构复原出色,边缘锐利且伪影少[20] - 消融研究表明:去除模式重平衡导致PSNR下降0.4 dB,去除AttnNO影响局部纹理,去除ATS会使推理步数回升至千步级[23] 技术突破 - 首次实现支持任意连续倍率(如2.1、11.5倍)的超分辨率重建[2] - 通过神经算子赋能扩散架构,打破"高质量重建"与"快速推理"矛盾[1][23] - 采用全模式保留策略,兼顾图片整体解构与局部细节[18] 学术认可 - 研究成果入选CVPR 2025 Oral报告[2] - 论文已发布于arXiv(编号2411.09911)并提供开源项目主页[7]