通用机器人控制

搜索文档
开放世界任务成功率82%!美的攻克机器人泛化控制难题
量子位· 2025-07-15 14:28
模型概述 - 美的AI研究院与华东师范大学联合推出ChatVLA-2模型,具备开放世界具身推理能力,结合视觉-语言-动作(VLA)功能 [1] - 采用动态混合专家架构和双阶段训练流程,保留多模态认知能力并实现推理到动作的转化 [1] 核心能力 - 在数学推理、空间理解和泛化操作能力上表现优异,开放世界任务成功率达82% [4] - 通过数学匹配游戏评估数学推理能力,通过玩具摆放任务测试空间推理能力 [6] 模型架构 - 引入混合专家模型(MoE),动态选择专家模块以平衡任务特征与共享特征,优化计算资源分配 [7] - 在模型深层使用推理令牌替换观测嵌入,生成调控动作参数,增强决策精准度 [8] 训练策略 - 采用双阶段训练:第一阶段协同训练图文数据与机器人数据,激活开放世界理解能力 [13] - 第二阶段冻结视觉语言模型,专注训练动作专家,强化对未知推理场景的响应能力 [14] 实验效果 数学推理 - 在开放世界测试中,OCR得分3.58/4,数学推理得分1.73/2,操控成功率82.7% [19] - 对比其他模型(如DexVLA成功率10/52),ChatVLA-2显著领先(43/52) [19] 空间推理 - 目标识别得分0.94,操控成功率81.4%,优于同类方法 [21] - 能识别训练中未出现的物体并理解空间关系,完成精准摆放 [20][21] 行业意义 - 为通用机器人控制提供新思路,推动复杂场景与多模态交互研究 [21]