具身智能行业格局与关键事件 - 2025年是具身智能大爆发的一年,硬件表现活跃,但具身智能与机器人基础模型(即“大脑”)是定义智力天花板和行业“通用性”解释权的关键赛道[3] - 过去两年,该赛道叙事主线由Pi、Google、Figure等海外团队主导,但格局在2026年初发生变化[4] - 2026年1月12日,中国公司千寻智能(Spirit AI)开源了自研的视觉语言动作(VLA)基础模型Spirit v1.5[4] - Spirit v1.5在第三方机器人真机评测平台RoboChallenge的Table30榜单上位列第一,得分66.09,成功率为50.33%,超过了此前最强的模型Pi0.5(得分61.84,成功率42.67%)[11] - 此举意味着在具身智能核心战场上,中国团队结束了“跟随模式”,正式进入“全球第一梯队”[14] Spirit v1.5的技术突破与核心优势 - 模型胜出的核心在于对机器人预训练数据范式的根本性重构,从依赖“干净数据”转向学习“物理常识”[18][19] - 传统模型基于Open X-Embodiment (OXE)、Agibot和RoboCOIN等高度精选的“干净”数据集训练,场景被精心设计,限制了模型的泛化能力[20] - Spirit v1.5采用“开放式、目标驱动”的数据采集策略,只给操作员模糊的高层目标(如“清理厨房”),允许其即兴发挥,从而获得多样化、非结构化的数据[20] - 新策略带来的优势包括:构建了连续的技能流形,使模型能学习动作间的过渡与衔接[21];内化了纠错与恢复能力,使模型在面对干扰时能动态调整,展现出类似人类的“物理常识”[22] - 技术报告中的消融实验证实,其优势源于更高效的数据利用策略,而非算力扩张[24]:使用多样化数据训练的模型,在针对新任务微调时,达到相同性能基线所需的迭代次数比基线模型少了40%[25];随着多样化数据规模扩大,模型在新任务上的验证误差持续下降[27] Spirit v1.5的工程与产业价值 - 模型解决了行业在可扩展性上的难题,其非结构化采集方式带来了显著的工程效益[31]:人均有效采集时长增加了200%[38];对算法专家干预的需求削减了60%[38] - 千寻智能将模型的基模权重、推理代码及使用样例全部开源,接受公众检验并方便社区创新[6][33] - 开源举措具有重要产业意义:为科研界提供了可复现的强基线[39];为产业界,特别是中小型厂商,提供了经过验证、可商用的技术底座,避免了重复造轮子[39] - 此举标志着中国团队正将大语言模型(LLM)领域的开源繁荣延续到具身智能领域,从全球AI生态的“参与者”转变为关键基础设施的“建设者”[35][37][40] 行业影响与未来意义 - Spirit v1.5的出现具有明确的界碑意义,它通过实验证明了“非结构化的多样性是比精选数据更好的老师”[42] - 中国团队在具身智能领域已具备在核心技术路径(数据范式)与生态建设上与全球顶尖团队“对等对话”甚至“定义规则”的能力[42] - 高性能机器人基础模型(如Google RT系列或Pi)大多处于闭源或半闭源状态,制约了产业落地速度,Spirit v1.5的开源填补了“基座缺失”[36] - 真正的考验在于模型能否在真实世界的千万种场景中,经受住全球开发者的验证与打磨[42]
被Jim Fan点赞!全球第一的千寻智能Spirit v1.5正式开源!
机器之心·2026-01-12 09:20