人工智能从虚拟空间向物理世界的转变 - 人工智能正从虚拟互联网空间向真实物理世界迈进 核心挑战是赋予智能体对三维空间的理解能力 实现自然语言与物理环境的对齐 [3] - 现有3D空间理解模型依赖静态观察 缺乏主动探索行为建模 清华大学等团队提出统一空间理解与主动探索的新型模型 被ICCV 2025接收并获满分评价 [3] 具身导航任务的关键挑战 - 具身导航要求智能体根据人类指令在复杂物理空间中找到目标位置 需同时具备"听懂任务"和"会探索"的能力 [5] - 导航过程包含理解与探索两个交织步骤 类似人类导航时的方向感与主动探索行为 二者互相推动交替进行 [5] 研究难点与核心思路 - 主要研究难点包括实时语义表征构建 探索-理解协同训练目标设计 以及高效虚实结合数据采集流程 [7][11] - 核心思路是将具身导航建模为探索与视觉落地协同进行的闭环过程 强化学习与3D视觉语言模型能力统一 [8][14] 模型设计与实现 - 模型包含在线空间记忆构建与空间推理决策两大模块 通过动态空间记忆库实现结构化空间知识持续更新 [17][18] - 采用虚实结合数据策略 融合ScanNet和HM3D场景数据 构建超90万条导航轨迹和上千万语言指令 覆盖多种任务类型 [23][25] 实验结果与性能表现 - 在GOAT-Bench测试中成功率达52.2% 48.4%和47.2% 较现有方法最高提升20% 展现多模态理解与长期规划优势 [27] - SG3D-Nav任务中所有指标显著提升 s-SR达23.8 验证任务规划与长期记忆能力 [28][29] - 协同训练策略VLE在OVON GOAT和SG3D任务中分别提升5.5% 13.9%和5.0%成功率 [30] 技术应用与行业意义 - 模型在真实机器人上验证有效 为具身智能提供新思路 推动AI从屏幕走向物理世界的关键转型 [40][42] - 构建国内首个具身智能全栈学习社区 覆盖近40+开源项目和60+数据集 形成专业开发者生态 [51]
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一~
自动驾驶之心·2025-07-17 20:08