蚂蚁开源世界模型叫板谷歌Genie3，一张图生成10分钟稳定长视频

公司动态与产品发布 - 蚂蚁灵波科技于1月29日发布并开源了专为交互式世界模型设计的开源框架“LingBot-World”，其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境 [1] - 该模型由一个可扩展数据引擎驱动，通过从大规模游戏环境中学习物理规律与因果关系，实现与生成世界的实时交互 [2] - 蚂蚁已连续发布三款“灵波”系列具身领域大模型，其通用人工智能战略完成了从数字世界向物理感知层面的关键延伸，使其“基础模型 – 通用应用 – 实体交互”的全栈技术路径进一步清晰 [5] 产品核心技术指标 - 在视频质量、动态程度、长时一致性、交互能力等关键指标上，LingBot-World均逼近谷歌Genie 3 [2] - 通过多阶段训练与并行化加速，模型实现了近10分钟的连续稳定无损生成，解决了长序列生成中的“长时漂移”问题 [3] - 在交互性能上，模型可实现约16 FPS的生成吞吐，并将端到端交互延迟控制在1秒以内，用户可通过键盘或鼠标实时控制角色与相机视角 [3] 产品核心功能与优势 - 模型具备长时序一致性，在镜头最长移开60秒后返回，目标物体仍存在且结构一致 [3] - 用户可通过文本指令触发环境变化与世界事件，如调整天气、切换画面风格或生成特定事件，且所有变化均可在保持场景几何关系相对稳定的前提下完成 [4] - 模型具备良好的Zero-shot泛化能力，仅需输入一张真实的城市街景照片或游戏截图，即可生成对应的可交互视频流，无需针对单一场景进行额外训练 [4] - 模型支持场景多样化生成，可以改变光照、摆放位置变化等，有助于提升具身智能算法在真实场景中的泛化能力 [5] 数据与训练方法 - 为解决高质量交互数据匮乏的问题，模型采用了混合采集策略：一方面清洗大规模网络视频以覆盖多样化场景，另一方面结合游戏采集与虚幻引擎合成管线，从渲染层直接提取无UI干扰的纯净画面，并同步记录操作指令与相机位姿 [4] 行业意义与应用潜力 - 世界模型正成为连接生成式AI与具身智能的关键桥梁 [5] - LingBot-World凭借长时序一致性、实时交互响应及对“动作-环境变化”因果关系的理解，能够在数字世界中“想象”物理世界，为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间 [5] - 模型在长序列生成与零样本泛化方面的能力，若能在实际应用中验证，或可推动相关领域从有限场景训练向开放场景适应的演进 [5]