人工智能研究进展 - 核心团队来自北京通用人工智能研究院机器学习实验室,负责人李庆博士专注于多模态理解、多模态智能体、具身智能等方向 [1] - 研究提出统一空间理解与主动探索的新型模型,被ICCV 2025接收并获得满分评价 [3] - 论文标题为《Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation》 [5] 技术方法与创新 - 将具身导航建模为探索与视觉落地协同进行的闭环过程,实现理解和探索互相推动、交替进行 [7][8][9] - 模型设计包括在线空间记忆构建与空间推理与决策两大核心模块,协同优化实现探索与理解的闭环融合 [18] - 采用虚实结合的数据采集策略,融合ScanNet和HM3D场景数据,覆盖超过90万条导航轨迹和上千万语言描述 [26][27] 实验结果与性能 - 在GOAT-Bench基准测试中,MTU3D成功率分别达到52.2%、48.4%和47.2%,相比现有方法最高提升超过20% [30] - 在SG3D-Nav时序任务导航中,MTU3D在s-SR、t-SR和SPL指标上均显著优于强化学习和模块化方法 [31][32] - 协同训练策略VLE在OVON、GOAT和SG3D任务中分别带来5.5%、13.9%和5.0%的性能提升 [34] 应用与前景 - MTU3D生成的探索轨迹将GPT-4V在A-EQA任务中的成功率从41.8%提升到44.2% [33] - 模型在真实机器人上完成任务,为具身导航提供新思路和更多想象空间 [40][42] - 研究标志着人工智能从虚拟空间迈向真实物理世界的关键阶段 [41]
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一
机器之心·2025-07-14 10:29