Workflow
系统2慢思考
icon
搜索文档
让机器人学会系统2慢思考,叠衣服倒咖啡等不在话下 | 上海交大&智元机器人
量子位· 2025-06-13 10:25
机器人双系统VLA模型Hume - 上海交通大学与智元机器人团队联合推出Hume模型,首次实现系统2慢思考与VLA模型的融合,通过动作价值引导和双系统级联去噪解决机器人深度推理与实时控制的矛盾 [1][7][10] - 模型在折叠短裤、倒咖啡等复杂操作中达到91%平均成功率,显著超越当前最先进模型 [3][20][30] - 核心技术包含动作去噪生成模块、动作价值估计模块和轻量级系统1级联去噪架构,实现异步双系统协同 [8][10][17] 技术突破点 - **动作价值引导慢思考**:系统2生成多候选动作并通过Q值评估选择最优方案,在Push-T任务中实现精确轨迹规划 [10][11][22] - **级联去噪高频控制**:系统1以500Hz频率细化动作,移除级联去噪机制会导致真实任务性能下降19% [17][18][31] - **双系统协同架构**:系统2低频深度思考(1Hz)与系统1高频执行(500Hz)结合,在LIBERO基准达到98.6%成功率 [10][20][28] 性能验证 - **仿真测试**:在SimplerEnv基准的WidowX任务中成功率72.6%,比OpenVLA高64.8个百分点;Google机器人任务78.7%成功率,超越RT-2-X等模型 [26][28][29] - **真实场景**:WidowX平台复杂任务成功率91%,AgiBot G-1折叠短裤任务成功率88%比π₀高15% [20][30] - **失败恢复能力**:在抓取失败等异常状态下,通过重复采样候选动作实现63%恢复率,显著优于GR00T等模型 [24][30] 行业影响 - 解决VLA模型两大核心挑战:高维连续动作空间的慢思考实现(通过流匹配去噪方法),以及推理速度与实时控制的平衡(异步双系统架构) [4][5][7] - 首次在机器人领域实现类人类的"深思熟虑"决策模式,为柔性物体操作、长时序任务等工业场景提供新范式 [2][22][30] - 开源代码与论文全公开,技术路线可复现性高,加速行业技术迭代 [34]