Workflow
3D空间理解
icon
搜索文档
让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%
量子位· 2025-06-04 08:17
研究背景与挑战 - 具身智能领域面临的核心难题是让AI在复杂3D环境中像人类一样构建、维护和利用长时记忆[3] - 现有大语言模型在文本理解中表现卓越,但在动态3D环境中举步维艰,主要问题包括:依赖稀疏或物体中心的表征,无法捕捉复杂的几何关系;缺乏动态更新机制,难以管理时空动态;在多房间任务中难以关联不同时空的观察,存在长时记忆断层[5][6][8] 3DMEM-BENCH基准 - 研究团队构建了首个3D长时记忆评估基准3DMEM-BENCH,用于系统评估具身智能的记忆能力[10] - 基准具有大规模与多样性特点:包含超过26,000条轨迹和1,860个具身任务,覆盖182个3D场景,平均每个场景18个房间[11] - 任务难度分级明确:分为简单(3房间)、中等(5房间)、困难(10房间),并包含“野外挑战”以考察模型泛化能力[12] - 相较于ALFWorld、Behavior-1K等现有基准,3DMEM-BENCH首次聚焦“长时记忆”与“3D空间理解”的结合[13] - 评估维度包括:要求执行跨房间动作链的具身任务、测试空间关系推理的时空问答、以及总结多房间记忆共性与差异的场景描述[14] 3DLLM-MEM模型架构 - 研究团队提出3DLLM-MEM模型,采用双记忆系统设计,灵感源自人类认知结构[15] - 工作记忆存储当前观察,容量有限但动态更新;情景记忆以密集3D表征存储历史观察与交互,可扩展且包含时空位置信息[22] - 模型包含记忆融合模块,工作记忆作为“查询”从情景记忆中选择性提取任务相关特征,通过注意力机制融合两者,避免记忆过载[16] - 具备动态更新机制,当环境变化时自动更新情景记忆,确保记忆与当前状态一致[17] - 核心优势在于通过“选择性记忆检索+时空特征融合”,在复杂环境中既能聚焦任务关键信息,又能维持记忆效率[19] 模型性能验证 - 在3DMEM-BENCH上的实验表明,3DLLM-MEM显著优于现有方法[20] - 在最具挑战性的“野外困难任务”中,模型成功率达27.8%,远超基线模型(如“最近记忆”仅5%,“检索增强记忆”仅10.6%)[21] - 在“野外任务”整体成功率上,3DLLM-MEM达32.1%,比最强基线高16.5%[23] - 在时空问答任务中,模型在“空间关系”“跨房间对比”等子任务上准确率超过60%,而传统3D-LLM因上下文限制,准确率不足10%[24] - 模型通过“动态融合”机制仅需处理与当前任务相关的记忆片段,计算成本比“全记忆存储”降低,同时保持高推理精度[25]