蚂蚁出手VLA,就是开源超越Pi0.5的基座模型
机器之心·2026-01-28 11:36

行业现状与核心挑战 - 当前具身智能产品(如1X公司的Neo机器人)在演示场景中能完成特定任务,但在面对多样化的真实日常任务时,泛化能力严重不足,常需工程师远程教学,处于“半成品智能”状态[1] - 行业落地的核心瓶颈在于模型的泛化能力不足,突破瓶颈的共识是需要大规模、多样化的真实机器人数据来训练模型,但高质量真机数据采集成本高,且不同构型机器人的数据难以复用,导致多数模型训练受限[2] 蚂蚁灵波LingBot-VLA模型概述 - 蚂蚁灵波开源了具身智能基座模型LingBot-VLA,该模型基于约20000小时、覆盖9种主流双臂机器人构型的真实世界数据预训练而成[2] - 在涵盖100多项任务的统一真机评测基准下,其整体表现超越了之前的行业标杆Pi0.5,成为能够跨本体、跨场景泛化的开源具身基座模型新标杆[2] - 该模型的超越源于其在模型架构、数据规模与训练效率上的系统性突破,公司并开源了相应的模型权重、代码、后训练工具链,以助力开发者[3] 行业标杆Pi0.5的地位与意义 - 在LingBot-VLA出现前,Physical Intelligence开源的Pi0.5是行业无法绕开的标杆,它首次在开源世界证明了一个模型无需针对特定场景训练,就能在完全陌生的真实家庭环境中完成长达10-15分钟的复杂操作链条[7] - Pi0.5的成功让行业看到具身智能从“实验室奇观”过渡到“规模化产品”的可能性,因此成为学术和产业界模型选型中“必须要比一比”的对象,许多机器人公司选择在其基础上进行微调,巩固了其生态核心地位[7] - 许多自研模型只能在特定任务或固定构型机器人上取得优势,一旦更换任务或机器人本体,性能就会大幅退化,这本质上是专用模型的胜利,而非泛化能力的提升[8] LingBot-VLA的性能验证与优势 - 模型在全新的具身智能基准GM-100上接受测试,该基准包含100项真机任务,涉及长序列任务和精细操作(如串糖葫芦、拉软包拉链),设计复杂严谨[12] - 测试部署在来自三大不同平台(AgileX、Agibot G1、Galaxea R1Pro)的25台机器人上,是对跨本体、跨任务能力的综合考验[13] - 实验结果显示,在所有测试平台上,LingBot-VLA的成功率(SR)和部分成功率(PS)均最高,相比Pi0.5,平均SR提高了4.28%,PS提高了7.76%[14] - 具体数据:在Agibot G1平台上,LingBot-VLA(带深度信息)的SR为11.98%,PS为30.47%;在AgileX平台上,SR为18.93%,PS为40.36%;在Galaxea R1Pro平台上,SR为20.98%,PS为35.40%,各项指标均领先于Pi0.5、GR00T N1.6和WALL-OSS等对比模型[15] 模型的数据与算力效率 - 数据利用效率更高:在Agibot G1平台上,LingBot-VLA仅使用80条示范数据进行后训练,其表现就超越了使用130条完整数据训练的Pi0.5模型,且随着数据量增加,性能差距进一步拉大[17] - 算力效率更高:在相同数据集和架构下,其训练吞吐量(samples/s)显著高于StarVLA、Dex Botic、OpenPI等主流开源框架,在两种模型设置下均实现最快训练速度[19] - 训练框架扩展性极佳,随着GPU规模从8卡扩展至256卡,训练效率仍能紧密跟随理论线性扩展上限,这意味着企业能以更低算力成本、更短训练周期完成模型迭代[19] 模型架构与技术细节 - 架构上,LingBot-VLA选择强大的预训练视觉语言模型Qwen2.5-VL作为“大脑”,并配以专门生成机器人动作的“动作专家”,两者通过Mixture-of-Transformers (MoT) 架构有机结合,保证视觉语义知识指导动作生成,又避免模态间干扰[20] - 动作生成采用Flow Matching方法建模连续平滑的动作轨迹,以提升复杂操作的控制稳定性[21] - 空间感知采用基于视觉蒸馏的深度信息融合方法,通过可学习的查询机制,使视觉语言主干提取的特征与专用深度模型LingBot-Depth生成的空间表征进行对齐,而非直接输入深度图[21] - 训练代码库进行了系统级优化,采用改进的FSDP策略、FlexAttention和算子融合等技术,最终训练吞吐量达到每GPU每秒261个样本,相比主流开源代码库有1.5至2.8倍的加速[24] 行业意义与未来展望 - LingBot-VLA的发布为行业提供了首个扎实的实证,证明通过扩展真实数据可以实现更强泛化,公司技术报告首次系统性地揭示了VLA模型在真实机器人数据上的Scaling Law:随着预训练数据规模从3000小时扩展至20000小时,模型下游任务成功率持续显著提升,且性能曲线在20000小时量级仍未显示饱和迹象[26] - 这类以真实交互数据为核心的成功实践,为VLA模型未来与世界模型的深度融合奠定了现实基础[28] - 尽管取得突破,但所有模型在GM-100上的平均成功率都未超过20%,表明具身模型距离真正的跨本体、跨场景泛化仍有很长的路要走[28] - LingBot-VLA可被理解为蚂蚁AGI版图中面向“真实世界交互”的一次落子,在通用智能能力之外,通过具身智能把模型带入物理世界闭环,其开源发布及同步建设InclusionAI社区,旨在以更开放的协作扩大验证面,加速迭代[28]

蚂蚁出手VLA,就是开源超越Pi0.5的基座模型 - Reportify