文章核心观点 - 小米公司的MiMo团队发布了业界首个开源的、融合自动驾驶与具身智能两大领域的统一多模态基础模型MiMo-Embodied [6] - 该模型在自动驾驶与具身智能共计29个基准测试中全部实现了最先进性能 [2] - 此项研究由新入职的团队负责人罗福莉作为核心作者,智能驾驶首席科学家陈龙作为项目负责人,标志着公司在空间智能与自动驾驶融合领域的重要技术突破 [1][47] 技术方案与创新 - 模型基于MiMo-VL架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链和强化学习的渐进式四阶段训练策略 [8] - 四阶段训练策略具体包括:具身智能监督微调、自动驾驶监督微调、思维链推理微调和强化学习微调,批量大小分别为512、512、512和32,学习率分别为2×10⁻⁶、2×10⁻⁶、2×10⁻⁶和1×10⁻⁶ [23][24] - 该方案有效打破了室内操作与户外驾驶之间的领域鸿沟,解决了现有视觉语言模型缺乏统一性、存在领域差距与迁移困难等挑战 [10][12][14] 性能表现评估 - 在具身能力评估中,MiMo-Embodied在可供性预测、任务规划和空间理解等核心领域表现优异,在RoboRefit测试中得分82.30,在CV-Bench测试中得分88.82,显著超越对比模型 [28][29] - 在自动驾驶能力评估中,模型在CODA-LM测试中得分58.55,在Drama测试中得分76.14,在NuInstruct测试中得分83.58,在所有感知、预测和规划基准测试中均取得强劲性能 [30] - 定性评估显示模型能有效处理复杂真实世界任务,包括具身导航与操作、交叉路口转弯、弯道掉头、跟车和变道超车等多样化自动驾驶场景 [32][34][38][40] 团队与战略意义 - 研究团队由新加盟的AI专家罗福莉负责,其拥有阿里巴巴达摩院和DeepSeek的资深研发经验,项目负责人陈龙曾任职于Wayve和Lyft,具备丰富的自动驾驶研发背景 [45][46][48][49] - 此项研究成果是公司在智能驾驶与具身智能交叉领域的重要布局,未来将基于此模型探索具身智能视觉-语言-动作模型,以增强复杂环境中的交互能力 [43] - 模型已在GitHub和Huggingface平台开源,参数规模为7B,便于行业进一步研究与应用 [50]
罗福莉首个小米成果!开源具身大模型