Workflow
Navigation World Models
icon
搜索文档
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 23:45
CVPR 2025大会概况 - 本届CVPR共收到13008份论文投稿,同比增长13%,最终接收2872篇,接收率22.1% [3] - 大会现场参会学者超过9000人,来自70余个国家和地区 [7] - 图像与视频生成领域论文接收数量最多,基于多视角和单图像的3D领域接收率最高 [8] 最佳论文及荣誉提名 - 最佳论文VGGT由牛津大学和Meta AI联合提出,采用纯前馈Transformer架构实现通用3D视觉模型,推理速度达秒级 [14][17] - 荣誉提名论文MegaSaM来自Google DeepMind等机构,提出深度视觉SLAM框架,在动态场景中实现快速准确的相机姿态估计 [27][30] - 另一篇荣誉提名论文Navigation World Models由LeCun团队提出,采用条件扩散Transformer实现最先进视觉导航性能 [33] 3D视觉技术进展 - 3D Student Splatting and Scooping(SSS)改进了3D高斯泼溅技术,在质量和参数效率上优于现有方法 [37][40] - 论文实验数据显示,SSS方法在Mip-NeRF360数据集上PSNR达29.90,LPIPS为0.145,表现最优 [42] 视觉语言模型创新 - Molmo和PixMo论文提出开源视觉语言模型,72B参数模型在多项基准测试中超越Claude 3.5 Sonnet等商业模型 [46] - 该方法创新性地使用PixMo数据集,无需依赖专有VLM合成数据 [46] 学生论文亮点 - 最佳学生论文提出首个基于物理的多视角动态光传播神经逆渲染系统,实现强间接光条件下的3D重建 [55] - 荣誉提名学生论文创新性地利用扩散时间步构建视觉语言,统一多模态理解和生成 [63][66] 行业重要奖项 - 年轻研究者奖授予Hao Su和谢赛宁,两人论文被引量分别超过12万和7.5万 [68][72][74] - Longuet-Higgins奖授予Inception架构和全卷积网络两篇开创性论文,引用量分别达6.7万和4.9万 [76][79][80][83] - Thomas S. Huang纪念奖授予德克萨斯大学Kristen Grauman教授,表彰其在计算机视觉领域的贡献 [86]
转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性
机器之心· 2025-05-11 11:20
研究背景 - 基于视频生成模型的可交互世界生成近期受到广泛关注,但长时序一致性仍是未解决的挑战[1][5] - 谷歌Genie 2、阿里The Matrix、Meta Navigation World Models等现有方法在生成质量与交互性上有进展,但长时一致性问题突出[5] - 传统方法在视角转换时场景内容会显著变化,缺乏连续性[6][7] 模型创新 - WorldMem通过引入记忆机制(记忆库+贪心检索+融合模块)实现长时序一致生成[8][18][19] - 记忆库持续存储关键历史信息(图像帧+位姿/时间戳),采用贪心匹配算法高效检索[18][21] - 记忆融合模块通过跨注意力机制动态关联历史与当前帧,增强空间一致性[20][22] - 状态嵌入设计(位姿Plücker坐标+时间MLP映射)提升时空表达精度[25] 技术实现 - 基于Oasis和Conditional DiT构建生成主干,采用Diffusion Forcing训练策略[17] - 记忆读写模块支持历史信息存取,记忆融合模块引导当前生成[15][19] - 相对嵌入机制和帧独立检索策略优化信息利用效率[22][25] 性能表现 - 在Minecraft数据集上: - 短时生成PSNR达27.01,超越Diffusion Forcing的26.56[24] - 长时生成(300帧)PSNR保持25.32,显著优于基线方法的18.04[24][26] - rFID指标降至15.37,远低于基线51.28[24] - 支持动态交互(如雪地放置南瓜灯融化积雪、种植作物生长过程)[13][31] - 真实场景验证显示记忆机制增强一致性[33] 行业应用 - 视频生成模型(如WAN 2.1、Hunyuan)展示出复杂环境仿真潜力[36] - 交互式视频生成模型有望成为虚拟仿真、交互智能领域的核心技术[37][38] - WorldMem为构建持久、交互式虚拟世界提供关键技术路径[38]