小米开源具身智能VLA模型Xiaomi-Robotics-0，雷军：已布局多年

公司技术发布 - 小米机器人团队正式开源了其具身智能VLA模型，命名为Xiaomi-Robotics-0 [1] - 该模型拥有47亿参数，采用MoT混合架构，并以多模态VLM大模型为底座 [1] - 模型嵌入了多层DiT，旨在兼顾通用理解与精细控制 [1] 模型性能表现 - Xiaomi-Robotics-0在Libero、Calvin和SimplerEnv等主流测试集的所有Benchmark中，均取得当前最优成绩 [3] - 模型在与30种模型的对比中，均取得当前最优成绩 [3] - 该模型在消费级硬件上实现了实时推理 [3] 技术能力与创新 - 模型采用跨模态预训练，并保留了物体检测和视觉问答等能力 [4] - 为克服传统VLA模型推理延迟导致的“动作断层”，团队采用了异步推理模式与Λ-shape Attention Mask等机制 [4] - 这些创新机制使机器人在真实场景中动作连贯、反应灵敏 [4] - 模型在积木拆解、叠毛巾等高难度任务中展现了手眼协调能力 [4]