让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%
量子位·2025-06-04 08:17
3DLLM团队 投稿 量子位 | 公众号 QbitAI 想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。 这一系列过程依赖人类强大的 空间-时间长时记忆 。 如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。 加州大学洛杉矶分校(UCLA)与谷歌研究院的研究团队带来了最新进展: 3DLLM-MEM 模型与 3DMEM-BENCH 基准,让AI首次具备在 复杂3D环境中构建、维护和利用长时记忆的能力。 传统模型依赖稀疏或物体中心的表征,无法捕捉3D环境中复杂的几何关系(如家具布局、物体尺寸对比),而这些细节对任务成败至关重 要(如判断礼物盒是否"太松"或"太大")。 时空动态管理 环境变化(如移动家具、使用物品)会导致记忆过时,但现有模型缺乏动态更新机制,难以区分"旧记忆"与"新状态"。 简单地说,模型无法像人类一样形成"认知地图"并灵活调用记忆的 核心问题 在于缺乏针对3D空间-时间的记忆建模。 挑战:3D环境中的记忆困境 现有大语言模型(LLMs)在文本理解中表现卓越,但当"进入"动态3D环境时却举步维艰。存在以下问题: 突 ...