刚刚，何恺明ResNet、YOLO获时间检验奖！CVPR 2026奖项出炉

CVPR 2026会议概况 - CVPR 2026于6月3-7日在美国丹佛举行，是计算机视觉与模式识别领域的全球顶级学术会议，在谷歌学术影响力排名中位列第二[1] - 会议覆盖人工智能、具身智能、自动驾驶、多模态学习、大语言模型、AR/VR等前沿热门研究方向[1] 会议数据统计 - 本届会议共收到16092篇投稿，接收4071篇（包括141篇highlights和3352篇poster），接收率为25.3%，投稿量较去年增长23.71%[3] - 会议参与规模创下新纪录：共有44,011位作者、25,149位审稿人和909位领域主席参与[5] - 与CVPR 2025相比，领域主席数量增长28%，审稿人数量翻倍（增长100%），投稿量增长24%[5] 研究资源与趋势 - 当前计算机视觉研究的人均资源消耗显著：人均使用约4块GPU和40GB显存起步[9] - 工业界在算力消耗上占据主导地位[9] 最佳论文奖 - 最佳论文奖授予谷歌DeepMind、伦敦大学学院和牛津大学的研究，论文题为《Effciently Reconstructing Dynamic Scenes One D4RT at a Time》[16] - 该研究提出D4RT方法，将动态4D重建范式从“逐帧解码”转变为“按需查询”，实现了新的SOTA，在速度和精度上均优于现有方法[14][15] - 第一作者为DeepMind资深研究科学家Chuhan Zhang（张楚晗）[17] 最佳论文奖提名 - 一篇提名论文来自Meta超级智能实验室，题为《SAM 3D: 3Dfy Anything in Images》[25] - 该研究提出一个用于视觉基底3D物体重建的生成式模型，能从单张图像预测物体的几何、纹理和布局，在人类偏好测试中获得至少5:1的胜率[22][23] - 另一篇提名论文来自英伟达、斯坦福大学等机构，题为《NitroGen: An Open Foundation Model for Generalist Gaming Agents》[32] - NitroGen是一个通用游戏智能体的视觉-动作基底模型，在超过1000款游戏、总计40,000小时的游戏视频上训练，在迁移至新游戏时，任务成功率相对提升52%[26][27] 最佳学生论文 - 最佳学生论文奖授予清华大学、微软研究院等机构的研究，论文题为《Native and Compact Structured Latents for 3D Generation》[33] - 该研究提出一种名为O-Voxel的新型稀疏体素结构，并训练了包含40亿参数的大规模流匹配模型用于3D生成，生成的资产在几何与材质质量上远超现有模型[30] 最佳学生论文奖提名 - 提名论文来自广东工业大学、北京大学等机构，题为《ChordEdit: One-Step Low-Energy Transport for Image Editing》[39] - 该研究提出一种无需训练、无需反演的方法，解决了将一步式文本生成图像模型用于图像编辑时出现的物体变形和一致性丢失问题，实现了高保真的一步式图像编辑[35][36] Longuet-Higgins Prize（时间检验奖） - 一篇获奖论文是2016年CVPR发表的ResNet原始论文《Deep Residual Learning for Image Recognition》，该论文解决了深层神经网络训练难题，目前被引量已超过32万次[38][41][42] - 另一篇获奖论文是2016年CVPR发表的YOLO v1原始论文，它将目标检测重新定义为端到端的回归问题，首次实现了真正可用的实时检测，目前被引量接近8万次[44][46][47] 年轻学者奖 - 本年度获奖者为卡内基梅隆大学副教授Deepak Pathak和麻省理工学院副教授Vincent Sitzmann[51] - Deepak Pathak的研究横跨计算机视觉、机器学习和机器人学[53] - Vincent Sitzmann的研究核心是让机器理解和模拟世界，方向包括神经场景表示、3D视觉、生成模型等[53] Thomas S. Huang纪念奖 - 本年度获奖者为康奈尔大学计算机科学教授Noah Snavely，其研究方向是计算机视觉和图形学[57]