世界模型混战,蚂蚁炸出开源牌
AI前线·2026-01-29 18:07

蚂蚁灵波发布开源通用世界模型LingBot-World - 蚂蚁集团旗下具身智能公司蚂蚁灵波正式发布并开源其通用世界模型LingBot-World,全面开源代码和模型权重,且不绑定任何特定硬件或平台 [2] - 该模型沿袭了DeepMind Genie 3的路线,能够根据文本或图像提示实时生成可探索的动态虚拟世界,并在交互能力、高动态稳定性、长时序连贯性及物理一致性方面取得突破 [2] - 模型呈现出从“生成”到“模拟”的跨越,随着规模扩大,涌现出对空间关系、时间连续性和物理规律的理解 [2] 模型核心能力与性能表现 - 模型展现出对基础物理机制的理解,例如鸭子蹬水动作、水面对扰动的响应及身体与水的相互作用符合物理规律,显示出对流体力学和因果关系的理解 [3][4] - 模型具备持久记忆能力,当用户切换视角再回归时,环境中的智能体仍能保持记忆并持续行动,确保世界状态自然推进 [5] - 模型遵循空间逻辑,智能体运动具有物理合理性,例如碰到沙发后不会穿透而是向空地走去 [6] - 模型能够生成长达9分20秒的未剪辑连贯视频,在近十分钟内保持较稳定的物理状态和视觉质量,尽管在视频后期存在建筑位置关系被遗忘的细节瑕疵 [7] - 单次生成接近10分钟的连贯视频,刷新了当前视频/世界模型的长度纪录,作为对比,Veo 3、Sora 2、Runway Gen-3 Alpha和Kling的单次生成上限分别为8秒、25秒、40秒和2分钟 [8] - 在提供720p分辨率并保证高动态程度和长生成跨度的同时,保持了开源特性 [8] - 在VBench测试中全面领先于Yume-1.5和HY World-1.5等先进开源模型,证明其不仅是视频生成器,更是强大的交互式模拟器 [9] - 具体VBench得分:成像质量0.6683,美学质量0.5660,动态度0.8857,运动平滑度0.9895,时间闪烁0.9648,整体一致性0.2178,各项指标均优于对比模型 [10] 行业背景与技术路线 - 大语言模型在理解物理世界、因果关系方面存在局限,世界模型被视为AI走向真实物理世界深度理解的一个解决方案,吸引了Google、李飞飞、Yann LeCun等众多科学家和公司的关注 [10] - 行业对“世界模型”尚无统一标准,存在路线分歧,例如李飞飞的Marble专注空间关系,英伟达细分为预测、风格迁移、推理模型,DeepMind的Genie 3追求端到端实时渲染 [11] - 蚂蚁灵波的世界模型方案更接近Genie 3,旨在成为一个通用模型,为Agent、具身智能、游戏、仿真等领域提供理解世界物理规律的基础设施平台 [11] - 世界模型的研究可追溯至1990年Richard S. Sutton提出的Dyna架构,其核心理念是为智能体提供“模拟经验”的内部环境以进行规划和训练,这一理念延续至今 [15][18][19] - 当前世界模型技术路径主要分为生成式和非生成式两类,核心区别在于预测空间 [23] - 生成式路径代表如NVIDIA Cosmos、DeepMind Genie和World Labs,使用像素观测空间或带位姿的3D帧进行预测 [24] - 非生成式路径代表如Yann LeCun的联合嵌入预测架构,在潜空间内预测未来抽象表征,无需像素级重建 [24] - 蚂蚁灵波的LingBot-World选择了类似Genie的生成式路径,并试图解决从视频生成到世界模拟之间的技术障碍 [25] 模型技术细节与构建 - 模型构建了一个从采集、处理到标注的数据引擎,以解决“动作-反馈”因果闭环数据稀缺的瓶颈 [28] - 训练数据包含通用视频、游戏数据和由Unreal Engine生成的合成渲染数据,以确保语料的丰富性、高质量和交互性 [29] - 数据处理流程包括质量筛选与切分、借助VLM和几何标注生成元数据,并引入三种不同粒度的描述标注 [30] - LingBot-World将世界模型定义为一个条件生成过程,模拟由智能体动作驱动的视觉状态演化 [31] - 模型的目标函数是最大化给定历史帧和动作序列条件下预测下一帧状态的似然概率,本质是一种概率预测 [32][33][34] - 采用分阶段训练策略:预训练建立通用视频先验;中训练注入世界知识和动作可控性;后训练使架构适应实时交互,实现低延迟和严格因果性 [36] 应用潜力与生态意义 - 模型提供了一个高保真的物理交互沙盒,可作为具身智能、自动驾驶与虚拟现实等下游任务的通用基础设施 [39] - 支持通过自然语言控制模拟过程,如改变环境季节、时间或整体风格,并能在场景中精确注入特定物体 [39] - 在自动驾驶训练中,可低成本构建“鬼探头”、极端天气等严苛因果推理环境,以解决长尾问题 [43] - 模型展现的长程记忆和3D一致性,使得生成的视觉信息可直接转化为场景点云,服务于3D重建或高精度仿真任务 [43] - 其10分钟级别的生成能力为机器人等多步骤任务提供了更稳定的物理一致性,有助于在虚拟环境中进行高频次、深度、低成本试错 [44] - 与视觉-语言-动作模型LingBot-VLA结合,可勾勒出“内部模拟器”的具身大脑闭环方案,在虚拟空间中先行演练动作轨迹并评估物理后果 [44] - 利用相同训练数据,团队还微调出了动作智能体,能在生成的世界中自主规划并执行动作,实现智能体与环境的实时互动 [44][45] - 这表明世界模型未来不仅是训练工具,也有可能成为驱动智能体的底座 [46] - 通过开源训练方法、模型权重等,公司展示了其在具身智能领域的战略布局,为行业提供了探索世界模型更多可能性的契机,并帮助降低验证门槛 [12] - 蚂蚁灵波近期集中发布并开源了空间感知模型LingBot-Depth、具身大模型LingBot-VLA及LingBot-World,目标在于打造一个开放、通用的智能基座,与行业共建生态 [12]