ICCV 2025满分论文：一个模型实现空间理解与主动探索大统一~

人工智能从虚拟空间向物理世界的转变 - 人工智能正从虚拟互联网空间向真实物理世界迈进核心挑战是赋予智能体对三维空间的理解能力实现自然语言与物理环境的对齐 [3] - 现有3D空间理解模型依赖静态观察缺乏主动探索行为建模清华大学等团队提出统一空间理解与主动探索的新型模型被ICCV 2025接收并获满分评价 [3] 具身导航任务的关键挑战 - 具身导航要求智能体根据人类指令在复杂物理空间中找到目标位置需同时具备"听懂任务"和"会探索"的能力 [5] - 导航过程包含理解与探索两个交织步骤类似人类导航时的方向感与主动探索行为二者互相推动交替进行 [5] 研究难点与核心思路 - 主要研究难点包括实时语义表征构建探索-理解协同训练目标设计以及高效虚实结合数据采集流程 [7][11] - 核心思路是将具身导航建模为探索与视觉落地协同进行的闭环过程强化学习与3D视觉语言模型能力统一 [8][14] 模型设计与实现 - 模型包含在线空间记忆构建与空间推理决策两大模块通过动态空间记忆库实现结构化空间知识持续更新 [17][18] - 采用虚实结合数据策略融合ScanNet和HM3D场景数据构建超90万条导航轨迹和上千万语言指令覆盖多种任务类型 [23][25] 实验结果与性能表现 - 在GOAT-Bench测试中成功率达52.2% 48.4%和47.2% 较现有方法最高提升20% 展现多模态理解与长期规划优势 [27] - SG3D-Nav任务中所有指标显著提升 s-SR达23.8 验证任务规划与长期记忆能力 [28][29] - 协同训练策略VLE在OVON GOAT和SG3D任务中分别提升5.5% 13.9%和5.0%成功率 [30] 技术应用与行业意义 - 模型在真实机器人上验证有效为具身智能提供新思路推动AI从屏幕走向物理世界的关键转型 [40][42] - 构建国内首个具身智能全栈学习社区覆盖近40+开源项目和60+数据集形成专业开发者生态 [51]