小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!

文章核心观点 - 小米推出首个跨领域统一模型MiMo-Embodied,成功整合自动驾驶与具身智能两大领域,在29项相关基准测试中取得SOTA性能[5] - 该模型基于MiMo-VL架构,由自驾与具身团队主导开发,采用四阶段训练策略实现跨领域能力协同提升[3][9][20] - MiMo-Embodied为7B参数规模的开源模型,在动态物理环境中的理解与推理提供统一解决方案[5][7][22] 模型解决的问题与创新点 - 解决现有模型局限于单一领域、缺乏跨场景泛化能力的问题,首次实现自动驾驶与具身智能任务整合[5][7] - 能力全面覆盖自动驾驶的环境感知、状态预测、驾驶规划三大核心能力,以及具身智能的可用性预测、任务规划、空间理解三大核心能力[8] - 通过精心设计的数据集与四阶段训练策略突破跨领域任务干扰,实现性能协同提升[9][20] 模型架构设计 - 核心组件包括基于MiMo-VL的ViT视觉编码器、MLP投影器和继承MiMo-VL权重的大语言模型[12][13] - 视觉输入处理采用高分辨率数据编码生成结构化视觉tokens,通过MLP转换确保与LLM输入空间兼容[14][15] - 支持单图、多图、视频等多种视觉输入,通过自注意力机制提取复杂特征[12] 训练数据集与策略 - 数据集涵盖通用数据集、具身智能数据集和自动驾驶数据集三大类别[17][18] - 四阶段训练策略包括:阶段1通用与具身知识学习、阶段2自动驾驶知识学习、阶段3思维链推理微调、阶段4强化学习微调[20][21] - 训练参数设置统一:批量大小512(阶段4为32)、学习率2×10⁻⁶(阶段4为1×10⁻⁶)、最大序列长度32768[20] 核心性能表现 - 在17项具身智能基准测试中,可用性预测在VABench-Point等5项基准取得SOTA,空间理解在CV-Bench等9项基准领先[23][24] - 在12项自动驾驶基准测试中,环境感知在CODA-LM等基准超越专用模型,驾驶规划在NAVSIM公开基准实现最优性能[23][25] - 具体性能指标:可用性预测VABench-Point得分82.30,空间理解CV-Bench得分88.82,自动驾驶MME-RealWorld得分58.55[22][26] 消融实验与真实任务验证 - 四阶段训练策略使具身任务平均性能达62.4%(较混合训练提升4%),自动驾驶性能达63.3%(较混合训练提升8.1%)[27][37] - 真实世界部署测试显示在具身导航任务中目标物体定位准确,在自动驾驶任务中生成轨迹更贴合人类驾驶逻辑[31][33][36] - 在具身操作任务中成功执行"将锅盖放在锅左侧"、"抓取左边面包放入第二高盘子"等复杂指令[33][34]