这么哇塞的世界模型,竟然是开源的!
量子位·2026-01-29 16:27

文章核心观点 蚂蚁灵波公司近期连续开源了其具身智能基础设施的三个核心组件,最新开源的通用世界模型LingBot-World在长时序一致性、交互性和实时性方面表现突出,与之前开源的感知模型LingBot-Depth和决策模型LingBot-VLA共同构成了一个完整的、可复用的具身智能技术闭环,旨在为行业提供标准化的基础设施,其技术复用性未来可能扩展至游戏、AIGC和自动驾驶等领域[2][31][32][42][43]。 技术发布与核心特性 - 最新开源模型:蚂蚁灵波开源了通用的世界模型——LingBot-World,这是一个能够支持长达10分钟持续生成与交互的世界模型[2][3] - 关键性能对比:在视觉效果上与DeepMind的Genie 3不相上下,但在时间维度上更长;模型支持720p分辨率,并实现了实时(Real-time)生成[3][27] - 核心交互能力:用户可通过键盘(WASD)和鼠标实时控制视角,如同操作3A游戏;同时,Agent能在生成的世界中自主规划执行动作,用户也能用自然语言实时改变生成世界[4][5][6] - 模型核心优势:模型在长时序一致性、记忆力(能推断画面外物体的行为)以及遵循现实物理规律方面表现优异,解决了长视频生成的灾难性遗忘问题[9][10][11][24] 技术实现路径 - 数据构建策略:构建了混合数据引擎,结合海量真实世界视频与利用虚幻引擎合成的、自带完美相机位姿和物理碰撞信息的数据[16][17] - 分层标注策略:将视频描述拆解为叙事描述、静态场景描述和密集时序描述三个层级,以解耦背景与运动[19][25] - 三阶段模型训练: - 阶段一(预训练):基于视频生成模型初始化,旨在获得强大的通用视频生成能力[23][24] - 阶段二(中训练):引入混合专家模型架构,注入交互数据和游戏逻辑,使模型掌握物理规律并涌现出空间记忆能力[24] - 阶段三(实时性优化):通过引入因果注意力机制和少步蒸馏技术,将推理过程变为自回归生成,将延迟压缩到1秒以内,实现16fps的实时生成速度[26] 公司战略布局 - 完整基础设施闭环:此次开源并非孤立事件,结合此前开源的LingBot-Depth(机器人的“眼睛”,感知)和LingBot-VLA(机器人的“大脑”,决策),公司提供了一套完整的具身智能基础设施[31][32][42] - 组件协同效应:三个组件产生了“1+1+1>3”的化学反应:VLA可在World生成的虚拟环境中低成本推演学习;World生成的一致性视频可转化为高质量3D点云,用于训练Depth模型;VLA在真实世界的反馈又能优化World模型的物理准度[41] - 行业定位与愿景:通过将感知、决策、模拟三大核心件全部开源,公司试图为整个行业提供一套可复用、标准化的产业基础设施[32][43] - 未来扩展潜力:该技术栈的复用性不仅限于具身智能,同样可以应用于游戏、AIGC和自动驾驶等领域[43] 其他模型性能数据 - LingBot-VLA性能:在20000小时真实世界数据加持下,在三个不同机器人平台上完成了100项任务,成功率碾压同类模型,训练吞吐量是现有框架的1.5到2.8倍[37][38] - LingBot-Depth特性:通过掩码深度建模,能有效处理反光、透明物体,让机器人更清晰地感知真实世界[34][35]