蚂蚁灵波开源具身智能模型系列 - 蚂蚁集团旗下灵波科技于1月27日至30日连续四天密集开源发布四大核心模型,构建了一套完整的开源具身智能开发套件 [1] - 开源模型包括:空间感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World、具身世界模型LingBot-VA [1][2][3] - 此举标志着长期以来由少数巨头把持的世界模型壁垒,首次被中国科技企业以开源方式撕开关键缺口 [1] 开源模型技术细节与性能 - LingBot-Depth:专为提升机器人等智能终端的三维视觉精度与可靠性而设计,在多项国际基准测试中达到领先水平 [2] - LingBot-VLA:基于超过2万小时的真实机器人数据预训练,覆盖9种主流双臂机器人构型,仅需少量演示数据即可实现高质量任务迁移,大幅降低下游应用的适配门槛与成本 [2] - LingBot-World:在视频生成质量、动态程度、长时一致性等关键指标上媲美谷歌同期发布的Genie 3模型,成功攻克视频生成中常见的“长时漂移”难题,实现了近10分钟的连续稳定生成,并将端到端交互延迟控制在1秒以内 [2] - LingBot-VA:首次提出自回归视频-动作世界建模框架,将大规模视频生成模型与机器人控制深度融合,使机器人能够“边推演、边行动” [3][4] - 公司不仅提供了模型权重,更开放了包含数据处理、高效微调、自动化评估在内的全套工具链,旨在为全球开发者提供一个低成本、高性能的“具身数字演练场” [4] 谷歌的应对举措 - 在蚂蚁灵波宣布世界模型开源后不到24小时,谷歌DeepMind宣布面向美国地区18岁以上的Google AI Ultra订阅用户,逐步开放其世界模型研究原型“Project Genie”的体验 [5] - Project Genie基于Genie 3模型构建,是一款网页应用原型,允许用户通过文本提示或上传图像来创建、探索和混合生成交互式世界 [6] - 该原型尚处于早期阶段,存在生成效果不够逼真、操作延迟较高、单次生成时长限制为60秒等局限 [6] - 谷歌此次开放的是受限的体验平台而非完全开源,其核心模型代码并未开源 [6][10] 开源与体验平台背后的战略差异 - 蚂蚁灵波选择了彻底的开源策略,将包括世界模型在内的全套核心技术代码与模型权重向社区免费开放 [7] - 德国财经媒体AdHocNews评论称,LingBot-World能创建用于训练AI智能体的真实数字孪生环境,其性能与谷歌领先模型的性能相当,亮点在于机器人可以在模拟中安全、可扩展且经济地演练复杂场景 [7] - 法国科技媒体PauseHardware认为,LingBot-World若在长时序一致性和控制能力上得到验证,将极大加速实时智能体的发展 [8] - 谷歌目前采取的是一种更为谨慎的“可控开放”策略,通过订阅制面向高端用户开放体验入口,旨在收集用户反馈并控制风险 [10] - 这一差异反映两者不同的生态构建思路:蚂蚁灵波通过开源快速吸引开发者构建应用生态,意在具身智能等新兴领域确立事实标准;谷歌则倾向于在保持核心技术控制力的前提下,逐步探索商业化与普及路径 [14] 行业影响与评价 - 世界模型竞赛正从封闭研发加速转向开放生态的协同演进 [1] - 德国财经媒体AdHocNews评论称,这是在全球机器人领域话语权争夺战中的一项战略性举措,蚂蚁集团正在成为不断增长的人形机器人和物理AI市场中的核心推动者 [1][7] - AI技术评测网站Gaga.art直接对比指出:“LingBot-World在质量上与Google Genie 3相当,同时完全面向开发者开放。” [11] - 行业专家观点认为,此前这类训练环境通常是专有的且成本昂贵,现在每位开发者都能接触到工业标准技术 [14]
世界模型竞赛提速:蚂蚁灵波首次开源世界模型 谷歌开放世界模型体验平台