Workflow
空间理解
icon
搜索文档
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一~
自动驾驶之心· 2025-07-17 20:08
人工智能从虚拟空间向物理世界的转变 - 人工智能正从虚拟互联网空间向真实物理世界迈进 核心挑战是赋予智能体对三维空间的理解能力 实现自然语言与物理环境的对齐 [3] - 现有3D空间理解模型依赖静态观察 缺乏主动探索行为建模 清华大学等团队提出统一空间理解与主动探索的新型模型 被ICCV 2025接收并获满分评价 [3] 具身导航任务的关键挑战 - 具身导航要求智能体根据人类指令在复杂物理空间中找到目标位置 需同时具备"听懂任务"和"会探索"的能力 [5] - 导航过程包含理解与探索两个交织步骤 类似人类导航时的方向感与主动探索行为 二者互相推动交替进行 [5] 研究难点与核心思路 - 主要研究难点包括实时语义表征构建 探索-理解协同训练目标设计 以及高效虚实结合数据采集流程 [7][11] - 核心思路是将具身导航建模为探索与视觉落地协同进行的闭环过程 强化学习与3D视觉语言模型能力统一 [8][14] 模型设计与实现 - 模型包含在线空间记忆构建与空间推理决策两大模块 通过动态空间记忆库实现结构化空间知识持续更新 [17][18] - 采用虚实结合数据策略 融合ScanNet和HM3D场景数据 构建超90万条导航轨迹和上千万语言指令 覆盖多种任务类型 [23][25] 实验结果与性能表现 - 在GOAT-Bench测试中成功率达52.2% 48.4%和47.2% 较现有方法最高提升20% 展现多模态理解与长期规划优势 [27] - SG3D-Nav任务中所有指标显著提升 s-SR达23.8 验证任务规划与长期记忆能力 [28][29] - 协同训练策略VLE在OVON GOAT和SG3D任务中分别提升5.5% 13.9%和5.0%成功率 [30] 技术应用与行业意义 - 模型在真实机器人上验证有效 为具身智能提供新思路 推动AI从屏幕走向物理世界的关键转型 [40][42] - 构建国内首个具身智能全栈学习社区 覆盖近40+开源项目和60+数据集 形成专业开发者生态 [51]
让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%
量子位· 2025-06-04 08:17
3DLLM团队 投稿 量子位 | 公众号 QbitAI 想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。 这一系列过程依赖人类强大的 空间-时间长时记忆 。 如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。 加州大学洛杉矶分校(UCLA)与谷歌研究院的研究团队带来了最新进展: 3DLLM-MEM 模型与 3DMEM-BENCH 基准,让AI首次具备在 复杂3D环境中构建、维护和利用长时记忆的能力。 传统模型依赖稀疏或物体中心的表征,无法捕捉3D环境中复杂的几何关系(如家具布局、物体尺寸对比),而这些细节对任务成败至关重 要(如判断礼物盒是否"太松"或"太大")。 时空动态管理 环境变化(如移动家具、使用物品)会导致记忆过时,但现有模型缺乏动态更新机制,难以区分"旧记忆"与"新状态"。 简单地说,模型无法像人类一样形成"认知地图"并灵活调用记忆的 核心问题 在于缺乏针对3D空间-时间的记忆建模。 挑战:3D环境中的记忆困境 现有大语言模型(LLMs)在文本理解中表现卓越,但当"进入"动态3D环境时却举步维艰。存在以下问题: 突 ...