Workflow
长时序推理
icon
搜索文档
阿里亲身入局具身智能!Qwen内部组团,通义千问技术负责人带队
量子位· 2025-10-09 15:03
公司战略动向 - 阿里巴巴旗下通义千问(Qwen)团队内部组建了全新的具身智能小分队,由技术负责人林俊旸(Justin Lin)亲自从零搭建并带队推进[1][10][11] - 此举标志着阿里巴巴迄今为止最明确的物理AI系统探索,是公司整体AI战略从基础模型阶段向具身智能、机器人化应用阶段演进的关键落点[2][27][31] - 公司成为继OpenAI、Google等之后,又一家宣布入局具身智能赛道的大型模型厂商[3] 技术演进路径 - 团队目标是将多模态基础模型从主要在虚拟世界"理解"世界,转变为能够利用工具和记忆、通过强化学习执行长期推理,从而"参与"现实世界的基础智能体[8][9] - 技术演进路径是自然的:模型规模增长使AI具备抽象推理与任务分解能力,再结合强化学习(RL)、记忆模块与工具使用能力,模型被赋予更强的行动连续性和长时序推理能力,最终从软件模拟转向真实世界[28][29] - 具身智能旨在让AI不仅在云端推理、生成、对话,还能在机器臂转动、传感器输入、运动轨迹规划等物理世界中发挥作用[25] 行业背景与机遇 - 英伟达首席执行官黄仁勋曾表示,公司在AI与机器人领域拥有一个"数万亿美元级"的长期增长机遇[4] - 阿里巴巴集团CEO吴咏铭在云栖大会上预计,未来五年全球AI投资总规模将突破4万亿美元[30] 相关投资与生态布局 - 自2024年以来,阿里巴巴在具身智能领域保持高度战略关注,集团层面陆续投资了逐际动力、星动纪元、宇树科技等一批具身智能公司[21][22] - 阿里云于2025年9月领投了自变量机器人的1.4亿美元融资,这是阿里云首次在具身智能赛道上的直接出手[23] - 在2025年9月的云栖大会上,阿里云与NVIDIA联合提出"Physical AI"计划,旨在将AI大模型与机器人、自动化、工业制造等领域结合,打造智能化的物理世界操作系统[24]
FindingDory:具身智能体记忆评估的基准测试
具身智能之心· 2025-06-22 18:56
研究背景与核心问题 - 长期记忆缺失是当前具身智能体的关键瓶颈,视觉语言模型(VLMs)在规划与控制任务中表现突出,但处理跨时空的多模态观察数据能力严重受限 [3] - 核心矛盾在于具身智能需整合长期历史经验(如"找到昨天未整理的玩偶"),但缺乏针对性评估框架 [3] 基准设计创新点 任务架构 - 动态环境交互与记忆推理验证相结合 [4] - 主流VLMs仅能处理数百张图像,远低于真实场景的千帧级输入需求 [5] - 现有视频QA基准依赖选择题形式,无法评估物体操纵/导航等需细粒度推理的具身任务 [5] - 传统方法孤立评估记忆召回与决策执行,忽视二者在具身环境中的耦合性 [5] 动态环境构建 - 脚本代理在Habitat模拟器中执行物体抓取-放置(Pick-and-Place),产生400-3500帧交互视频 [6] - 采用HSSD数据集的107个训练场景,物体资产来自AI2Thor/ABO等真实数据集 [6] 任务分类体系 - 60类任务覆盖时空语义三维记忆挑战,包括空间关系、时序推理、属性记忆和多目标回溯 [7] 关键技术创新 - 程序化扩展通过增加Pick-and-Place交互数量线性提升任务复杂度 [9] 实验结果与关键发现 VLM记忆能力缺陷 - 在60类任务上的测试揭示三大瓶颈:长时序推理失效、空间表征薄弱和多目标处理崩溃 [13][14][16] - GPT-4o在交互顺序任务成功率仅14.5%,Gemini-2.0无法跟踪持续时间 [18] - 容器类任务的SC-SR比HL-SR高32%,表明VLM能识别目标但无法精确定位 [19] - 所有VLM在无序重访任务成功率接近0%,监督微调模型(Qwen-SFT)仅达20% [19] 高层规划与底层执行的割裂 - 高层VLM正确选择目标帧时,底层导航策略成功率仍下降40% [24] - 原生VLM(Gemini/GPT-4o)性能随帧数增加而下降,暴露长上下文无效利用 [20] - 监督微调模型(Qwen-SFT)能利用更长历史提升表现,验证定向训练的有效性 [25] 贡献与未来方向 核心贡献 - 首个光真实感具身记忆基准,60类任务覆盖复杂家庭环境 [26] - 可扩展评估框架和细粒度诊断工具(HL-SR/LL-SPL等指标) [26] 未来展望 - 记忆压缩技术和端到端联合训练是未来发展方向 [26] - 基准可生成监督数据,推动视频QA技术发展 [26]