Workflow
Neural Inverse Rendering from Propagating Light
icon
搜索文档
谢赛宁苏昊CVPR25获奖!华人博士王建元一作拿下最佳论文
量子位· 2025-06-14 00:44
CVPR 2025奖项总结 青年学者奖 - 谢赛宁以一作身份与何恺明合作完成ResNeXt并参与MAE,均为计算机视觉领域影响深远的工作[4] - 苏昊是李飞飞的博士生,曾参与计算机视觉领域知名项目ImageNet[3] 最佳论文奖 - 获奖论文《VGGT: Visual Geometry Grounded Transformer》由Meta和牛津大学联合提出,首次实现单次前馈端到端预测完整3D场景信息[5] - VGGT基于Vision Transformer,采用交替"全局-帧内"自注意力机制,性能超越现有几何或深度学习方法[13][17] - 模型输入支持1-200张图像,输出包含相机参数、深度图、点云图等核心3D属性[15] 最佳学生论文 - 获奖论文《Neural Inverse Rendering from Propagating Light》提出基于物理模型的神经逆向渲染方法,可从LiDAR数据重建场景几何和材质[25][26] - 核心技术包括时间分辨辐射缓存和神经网络加速计算,应用于自动驾驶和虚拟现实领域[27][29] 最佳论文荣誉奖 MegaSaM - 提出改进的深度视觉SLAM系统,能处理动态场景的单目视频,在相机姿态和深度估计方面优于传统方法[32][33] Navigation World Models - LeCun团队开发的可控视频生成模型,能基于视觉观测和导航动作预测未来画面,采用条件扩散变换器技术[38][39] Molmo and PixMo - 72亿参数视觉-语言模型Molmo超越Claude 3.5 Sonnet等闭源模型,配套数据集PixMo完全独立于闭源模型生成[45][48] 3D Student Splatting and Scooping - 改进3D高斯泼溅技术,采用Student's t分布实现正负密度建模,组件数量最多减少82%仍保持质量[53][56]
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 23:45
CVPR 2025大会概况 - 本届CVPR共收到13008份论文投稿,同比增长13%,最终接收2872篇,接收率22.1% [3] - 大会现场参会学者超过9000人,来自70余个国家和地区 [7] - 图像与视频生成领域论文接收数量最多,基于多视角和单图像的3D领域接收率最高 [8] 最佳论文及荣誉提名 - 最佳论文VGGT由牛津大学和Meta AI联合提出,采用纯前馈Transformer架构实现通用3D视觉模型,推理速度达秒级 [14][17] - 荣誉提名论文MegaSaM来自Google DeepMind等机构,提出深度视觉SLAM框架,在动态场景中实现快速准确的相机姿态估计 [27][30] - 另一篇荣誉提名论文Navigation World Models由LeCun团队提出,采用条件扩散Transformer实现最先进视觉导航性能 [33] 3D视觉技术进展 - 3D Student Splatting and Scooping(SSS)改进了3D高斯泼溅技术,在质量和参数效率上优于现有方法 [37][40] - 论文实验数据显示,SSS方法在Mip-NeRF360数据集上PSNR达29.90,LPIPS为0.145,表现最优 [42] 视觉语言模型创新 - Molmo和PixMo论文提出开源视觉语言模型,72B参数模型在多项基准测试中超越Claude 3.5 Sonnet等商业模型 [46] - 该方法创新性地使用PixMo数据集,无需依赖专有VLM合成数据 [46] 学生论文亮点 - 最佳学生论文提出首个基于物理的多视角动态光传播神经逆渲染系统,实现强间接光条件下的3D重建 [55] - 荣誉提名学生论文创新性地利用扩散时间步构建视觉语言,统一多模态理解和生成 [63][66] 行业重要奖项 - 年轻研究者奖授予Hao Su和谢赛宁,两人论文被引量分别超过12万和7.5万 [68][72][74] - Longuet-Higgins奖授予Inception架构和全卷积网络两篇开创性论文,引用量分别达6.7万和4.9万 [76][79][80][83] - Thomas S. Huang纪念奖授予德克萨斯大学Kristen Grauman教授,表彰其在计算机视觉领域的贡献 [86]