Workflow
长时序推理
icon
搜索文档
阿里亲身入局具身智能!Qwen内部组团,通义千问技术负责人带队
量子位· 2025-10-09 15:03
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 具身智能小分队 隶属于阿里巴巴旗下的Qwen (通义千问) 。 这是负责阿里旗舰基础模型研发的核心部门。一直以来,该团队负责Qwen系列大模型的研发、开源和商业化应用。 林俊旸在公开具身智能小分队的帖子中写道: Qwen团队内部组建了一个全新的具身智能小分队! 这一消息由通义千问技术负责人 林俊旸 (Justin Lin) 在上对外公开。 外媒评价称,这一举动标志着阿里巴巴迄今为止最明确的物理AI系统探索。 而阿里,也成为了继OpenAI、Google等之后,又一家宣布入局具身智能赛道的大模型大厂。 黄仁勋曾则表示,英伟达在AI与机器人领域拥有一个"数万亿美元级"的长期增长机遇。 显然,阿里没有想放过这个长期竞争与机遇。 "走向现实世界",Qwen组建具身智能团队 多模态基础模型现在正在转变为能够利用工具和记忆,并通过强化学习执行长期推理的基础智能体。 它们理应从虚拟世界走向现实世界! 如果说以往的大模型是在"理解"世界,那具身智能的目标,就是让模型能够"参与"世界——从林俊旸的推文里不难看出,Qwen 已经开始着手 把多模态模型推向具身智能的新阶段。 此 ...
FindingDory:具身智能体记忆评估的基准测试
具身智能之心· 2025-06-22 18:56
研究背景与核心问题 - 长期记忆缺失是当前具身智能体的关键瓶颈,视觉语言模型(VLMs)在规划与控制任务中表现突出,但处理跨时空的多模态观察数据能力严重受限 [3] - 核心矛盾在于具身智能需整合长期历史经验(如"找到昨天未整理的玩偶"),但缺乏针对性评估框架 [3] 基准设计创新点 任务架构 - 动态环境交互与记忆推理验证相结合 [4] - 主流VLMs仅能处理数百张图像,远低于真实场景的千帧级输入需求 [5] - 现有视频QA基准依赖选择题形式,无法评估物体操纵/导航等需细粒度推理的具身任务 [5] - 传统方法孤立评估记忆召回与决策执行,忽视二者在具身环境中的耦合性 [5] 动态环境构建 - 脚本代理在Habitat模拟器中执行物体抓取-放置(Pick-and-Place),产生400-3500帧交互视频 [6] - 采用HSSD数据集的107个训练场景,物体资产来自AI2Thor/ABO等真实数据集 [6] 任务分类体系 - 60类任务覆盖时空语义三维记忆挑战,包括空间关系、时序推理、属性记忆和多目标回溯 [7] 关键技术创新 - 程序化扩展通过增加Pick-and-Place交互数量线性提升任务复杂度 [9] 实验结果与关键发现 VLM记忆能力缺陷 - 在60类任务上的测试揭示三大瓶颈:长时序推理失效、空间表征薄弱和多目标处理崩溃 [13][14][16] - GPT-4o在交互顺序任务成功率仅14.5%,Gemini-2.0无法跟踪持续时间 [18] - 容器类任务的SC-SR比HL-SR高32%,表明VLM能识别目标但无法精确定位 [19] - 所有VLM在无序重访任务成功率接近0%,监督微调模型(Qwen-SFT)仅达20% [19] 高层规划与底层执行的割裂 - 高层VLM正确选择目标帧时,底层导航策略成功率仍下降40% [24] - 原生VLM(Gemini/GPT-4o)性能随帧数增加而下降,暴露长上下文无效利用 [20] - 监督微调模型(Qwen-SFT)能利用更长历史提升表现,验证定向训练的有效性 [25] 贡献与未来方向 核心贡献 - 首个光真实感具身记忆基准,60类任务覆盖复杂家庭环境 [26] - 可扩展评估框架和细粒度诊断工具(HL-SR/LL-SPL等指标) [26] 未来展望 - 记忆压缩技术和端到端联合训练是未来发展方向 [26] - 基准可生成监督数据,推动视频QA技术发展 [26]