蚂蚁出手VLA，就是开源超越Pi0.5的基座模型

行业现状与核心挑战 - 当前具身智能产品（如1X公司的Neo机器人）在演示场景中能完成特定任务，但在面对多样化的真实日常任务时，泛化能力严重不足，常需工程师远程教学，处于“半成品智能”状态[1] - 行业落地的核心瓶颈在于模型的泛化能力不足，突破瓶颈的共识是需要大规模、多样化的真实机器人数据来训练模型，但高质量真机数据采集成本高，且不同构型机器人的数据难以复用，导致多数模型训练受限[2] 蚂蚁灵波LingBot-VLA模型概述 - 蚂蚁灵波开源了具身智能基座模型LingBot-VLA，该模型基于约20000小时、覆盖9种主流双臂机器人构型的真实世界数据预训练而成[2] - 在涵盖100多项任务的统一真机评测基准下，其整体表现超越了之前的行业标杆Pi0.5，成为能够跨本体、跨场景泛化的开源具身基座模型新标杆[2] - 该模型的超越源于其在模型架构、数据规模与训练效率上的系统性突破，公司并开源了相应的模型权重、代码、后训练工具链，以助力开发者[3] 行业标杆Pi0.5的地位与意义 - 在LingBot-VLA出现前，Physical Intelligence开源的Pi0.5是行业无法绕开的标杆，它首次在开源世界证明了一个模型无需针对特定场景训练，就能在完全陌生的真实家庭环境中完成长达10-15分钟的复杂操作链条[7] - Pi0.5的成功让行业看到具身智能从“实验室奇观”过渡到“规模化产品”的可能性，因此成为学术和产业界模型选型中“必须要比一比”的对象，许多机器人公司选择在其基础上进行微调，巩固了其生态核心地位[7] - 许多自研模型只能在特定任务或固定构型机器人上取得优势，一旦更换任务或机器人本体，性能就会大幅退化，这本质上是专用模型的胜利，而非泛化能力的提升[8] LingBot-VLA的性能验证与优势 - 模型在全新的具身智能基准GM-100上接受测试，该基准包含100项真机任务，涉及长序列任务和精细操作（如串糖葫芦、拉软包拉链），设计复杂严谨[12] - 测试部署在来自三大不同平台（AgileX、Agibot G1、Galaxea R1Pro）的25台机器人上，是对跨本体、跨任务能力的综合考验[13] - 实验结果显示，在所有测试平台上，LingBot-VLA的成功率（SR）和部分成功率（PS）均最高，相比Pi0.5，平均SR提高了4.28%，PS提高了7.76%[14] - 具体数据：在Agibot G1平台上，LingBot-VLA（带深度信息）的SR为11.98%，PS为30.47%；在AgileX平台上，SR为18.93%，PS为40.36%；在Galaxea R1Pro平台上，SR为20.98%，PS为35.40%，各项指标均领先于Pi0.5、GR00T N1.6和WALL-OSS等对比模型[15] 模型的数据与算力效率 - 数据利用效率更高：在Agibot G1平台上，LingBot-VLA仅使用80条示范数据进行后训练，其表现就超越了使用130条完整数据训练的Pi0.5模型，且随着数据量增加，性能差距进一步拉大[17] - 算力效率更高：在相同数据集和架构下，其训练吞吐量（samples/s）显著高于StarVLA、Dex Botic、OpenPI等主流开源框架，在两种模型设置下均实现最快训练速度[19] - 训练框架扩展性极佳，随着GPU规模从8卡扩展至256卡，训练效率仍能紧密跟随理论线性扩展上限，这意味着企业能以更低算力成本、更短训练周期完成模型迭代[19] 模型架构与技术细节 - 架构上，LingBot-VLA选择强大的预训练视觉语言模型Qwen2.5-VL作为“大脑”，并配以专门生成机器人动作的“动作专家”，两者通过Mixture-of-Transformers (MoT) 架构有机结合，保证视觉语义知识指导动作生成，又避免模态间干扰[20] - 动作生成采用Flow Matching方法建模连续平滑的动作轨迹，以提升复杂操作的控制稳定性[21] - 空间感知采用基于视觉蒸馏的深度信息融合方法，通过可学习的查询机制，使视觉语言主干提取的特征与专用深度模型LingBot-Depth生成的空间表征进行对齐，而非直接输入深度图[21] - 训练代码库进行了系统级优化，采用改进的FSDP策略、FlexAttention和算子融合等技术，最终训练吞吐量达到每GPU每秒261个样本，相比主流开源代码库有1.5至2.8倍的加速[24] 行业意义与未来展望 - LingBot-VLA的发布为行业提供了首个扎实的实证，证明通过扩展真实数据可以实现更强泛化，公司技术报告首次系统性地揭示了VLA模型在真实机器人数据上的Scaling Law：随着预训练数据规模从3000小时扩展至20000小时，模型下游任务成功率持续显著提升，且性能曲线在20000小时量级仍未显示饱和迹象[26] - 这类以真实交互数据为核心的成功实践，为VLA模型未来与世界模型的深度融合奠定了现实基础[28] - 尽管取得突破，但所有模型在GM-100上的平均成功率都未超过20%，表明具身模型距离真正的跨本体、跨场景泛化仍有很长的路要走[28] - LingBot-VLA可被理解为蚂蚁AGI版图中面向“真实世界交互”的一次落子，在通用智能能力之外，通过具身智能把模型带入物理世界闭环，其开源发布及同步建设InclusionAI社区，旨在以更开放的协作扩大验证面，加速迭代[28]