小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源

行业背景与核心挑战 - 具身机器人已成为继AI大模型后下一轮科技叙事的中心,大厂小厂密集入局,资本追逐、媒体传播[2] - 行业处于一个矛盾坐标点:一边是繁花似锦的视觉盛宴和高难度动作刷屏,另一边是行业对机器人“真实价值”和释放生产力的迫切期待[3] - 机器人要真正成为生产力,核心含金量在于“自主性”,当前“人工辅助”或“单步遥操”模式需要人类高频次介入,打断自动化流程[4][5] - 只有当一个人能同时监管十台甚至一百台、一千台机器人,且每台机器人都能在长时间任务中持续决策、修正和执行时,具身智能才不是空谈[6] Xiaomi-Robotics-0模型概述与核心性能 - 小米发布首个具身VLA大模型Xiaomi-Robotics-0,旨在解决具身机器人间歇停顿问题[7] - 模型参数规模为4.7B,实现80ms推理延迟、30Hz实时控制频率,可在消费级显卡(RTX 4090)上流畅运行[8][21] - 模型在LIBERO、CALVIN、SimplerEnv等仿真与真实环境的主流基准上均刷新了SOTA(State-of-the-Art)[9] - 该模型为开源模型[10] 技术创新一:双脑协同架构 - 采用MoT架构,但将工作细分为“大脑”(VLM视觉语言模型)和“小脑”(16层DiT扩散Transformer)[16] - 大脑负责全局感知与决策,小脑专门负责输出连续动作块,改变了动作生成的粒度[17] - 传统离散token方式对连续动作进行离散化编码,精度易被截断,轨迹会有细微不连续[18] - DiT配合流匹配技术可直接生成连续动作向量,使动作更平滑灵巧[19] - 通过流匹配训练,推理所需采样步数从传统扩散模型的数十至数百步压缩至五步,显著缩短推理链路[19] - DiT与底层VLM同为Transformer结构,可直接复用VLM的KV Cache,减少重复计算[20] - 大脑与小脑之间通过KV缓存松耦合连接,既保证理解能力,又控制计算量,实现毫秒级反应速度[21] 技术创新二:两阶段预训练策略 - 解决具身模型长期存在的“顾此失彼”难题:模型在学习大量机器人动作数据后,原有的视觉理解能力会迅速退化[24][25] - 预训练采用两阶段特训:第一阶段通过Choice Policy与跨平台机器人轨迹数据,让VLM在理解图像与指令的同时粗粒度预测动作块,对齐视觉特征空间与动作空间[26][27] - 在预训练中混合视觉语言数据,避免VLM遗忘原有的视觉推理能力[28] - 第二阶段冻结VLM,单独训练DiT进行流匹配精细化生成,保护模型原有的多模态通识能力[30] - 这种分工确保模型在引入动作能力后依然保持强大的视觉语言能力,使机器人既能读懂复杂指令,又能规划连续动作[31] 技术创新三:改良异步执行机制 - 在后训练阶段引入Λ形注意力掩码机制,解决传统异步执行容易产生的“动作惯性”问题[34][35][36] - 该机制让动作块中紧邻前缀的动作回看先前动作确保衔接平滑,而远离前缀的部分则强制关注当前视觉反馈,确保根据环境实时修正[38] - 该机制让模型在保证动作连续性的同时强制重新审视环境,实现“连贯且可修正”,达到既丝滑又精准的状态[39] - 改良异步机制让模型同时实现动作流畅、精度保持和吞吐领先[40] 仿真与基准测试表现 - 在具身智能核心的VLA仿真benchmark中,Xiaomi-Robotics-0在LIBERO、CALVIN、SimplerEnv等六个仿真环境中,全面超过包括π0、π0.5、OpenVLA、RT-1、RT-2等在内的约30个现有头部模型[44] - 在CALVIN基准测试中,在“ABCD->D”设置下,连续完成5个任务的成功率达到91.8%,平均任务长度4.80,领先其他模型;在“ABC->D”设置下,连续完成5个任务的成功率达到88.1%,平均任务长度4.75[46] - 在Libero基准测试中,于Libero-Object任务上达到100%成功率,并以98.7%的平均成绩位列测试前列[47] - 在MMBench、MME、POPE、SeedBench、AI2D、M3MU、ScienceQA、MathVista、ERQA等九个多模态理解测试集中,大多数指标高于对比模型,证明模型没有通过牺牲理解能力来换取控制能力[48][49][50] 真实物理世界任务表现 - 在“叠毛巾”任务中,测试了6张不同毛巾,连续作业30分钟,均保持高成功率与高吞吐[54][55] - 在“拆卸乐高”任务中,在MA与LA-10场景达到100%成功率,吞吐量领先约25%[56][57] - 综合测试表现表明,Xiaomi-Robotics-0打通了仿真-视觉理解-真实机器人操作的闭环,是一个非常成熟的一体化VLA模型[58] 公司战略与行业影响 - 小米在具身智能领域选择走“务实进厂派”路线,强调工业落地、稳定性、吞吐量、可部署性及对复杂环境的适应性[64][65][73] - 公司近期开源了触觉驱动的精细抓取微调模型TacRefineNet,该模型依赖11×9压阻式触觉阵列,触点间距1.1mm,通过多模态融合实现毫米级位姿微调,无需视觉和物体三维模型,可Zero-shot部署于真实产线[66][67][68] - Xiaomi-Robotics-0提供快速响应与连续控制,TacRefineNet提供末端精细调整,两者结合构成“眼-脑-手”协同体系,直接切中工业场景中最难的非结构化环境作业难题[70][71] - 小米将Xiaomi-Robotics-0和TacRefineNet均选择开源,所有架构细节、算法方案全盘托出[74][75] - 从技术角度看,开源展示了“低延迟+高智能”在消费级硬件上运行的可行路径,打破了“具身大模型必然面临思维卡顿”的思维定式[76] - 从行业视角看,开源降低了广大中小开发者的入门门槛,使其无需从零开始烧钱训练昂贵基座模型,可以基于开源模型开发细分垂直应用[77][78] - 在重资产、长周期的具身机器人赛道,开源高质量基础模型提升了行业透明度,推动了技术讨论从营销转向工程细节,承担了行业基础设施建设者的角色[79][80]

小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源 - Reportify