小米的首代机器人VLA大模型来了,丝滑赛德芙,推理延迟仅80ms
36氪·2026-02-13 08:58

行业背景与趋势 - 具身机器人已成为继AI大模型后,下一轮科技叙事的中心,吸引了大量资本和媒体关注 [2] - 行业目前处于“繁花似锦的视觉盛宴”与对“真实生产力”迫切期待的交叉点,正经历一场范式演进 [3] - 机器人成为生产力的核心在于“自主性”,需要实现从“人工辅助”到一人监管数十甚至上千台机器人的跨越 [3] 小米公司技术突破:Xiaomi-Robotics-0模型 - 模型核心目标是解决具身机器人“间歇停顿”问题,实现低延迟、高频率的实时控制 [4] - 模型总参数为4.7B,在消费级显卡(RTX 4090)上实现80ms推理延迟和30Hz实时控制频率 [4][14] - 模型在LIBERO、CALVIN、SimplerEnv等主流仿真与真实环境基准测试中均刷新了SOTA(State-of-the-Art)记录 [4][28] - 该模型为开源模型,所有架构细节和算法方案均已公开 [5][42] 核心技术架构与创新 - 采用“双脑协同”的MoT架构:VLM(视觉语言模型)作为“大脑”负责全局理解与决策;16层DiT(Diffusion Transformer)作为“小脑”负责生成连续动作块 [7][8][9] - 通过流匹配(flow matching)技术,将推理所需采样步数从传统扩散模型的数十至数百步压缩至五步,显著缩短推理链路 [12] - “大脑”与“小脑”通过KV缓存松耦合连接,复用VLM的KV Cache,减少重复计算,降低延迟 [13][14] - 采用两阶段预训练策略:第一阶段对齐视觉与动作空间,第二阶段冻结VLM并单独训练DiT,以在引入动作能力后保护原有的视觉语言理解能力 [16][17][19] - 在后训练阶段引入Λ形注意力掩码机制,解决传统异步执行导致的“动作惯性”问题,使模型在保证动作连续性的同时能根据环境实时修正 [22][24] 模型性能表现 - 在VLA仿真基准测试中全面领先:在LIBERO、CALVIN等六个仿真环境中,超过包括π0、π0.5、OpenVLA、RT-1、RT-2在内的约30个模型 [28] - 在CALVIN基准测试的“ABCD->D”设置中,连续完成5个任务的成功率达到91.8%,平均任务完成长度(Avg. Len.)为4.80,领先其他模型 [29] - 在Libero-Object任务上达到100%成功率,在Libero测试中平均成绩为98.7%,位列前列 [29][30] - 在MMBench、ScienceQA等九个视觉语言理解基准测试中,大多数指标高于对比模型,证明其未因动作能力而牺牲理解能力 [31][32] - 在真实物理任务中表现优异:在“叠毛巾”任务中,处理6张不同毛巾并连续作业30分钟,保持高成功率与高吞吐;在“拆卸乐高”任务中,在MA与LA-10场景达到100%成功率,吞吐量领先约25% [34] 公司战略与行业影响 - 小米在具身智能领域选择“务实进厂派”路线,专注于工业落地所需的稳定性、吞吐量、可部署性及环境适应性 [36][39][41] - 公司技术布局构成“眼-脑-手”协同体系:Xiaomi-Robotics-0提供快速响应与连续控制,近期开源的TacRefineNet触觉模型提供末端精细调整,以解决工业非结构化环境作业难题 [41] - 开源行为降低了行业门槛,为中小开发者提供了高质量基础模型,推动了技术讨论从营销转向工程细节,承担了行业基础设施建设者的角色 [42][43] - 在重资产、长周期的机器人赛道,公司的开放姿态展现了科技大厂的担当 [44]