蚂蚁开源世界模型叫板谷歌Genie3,一张图生成10分钟稳定长视频
搜狐财经·2026-02-01 03:37

公司动态与产品发布 - 蚂蚁灵波科技于1月29日发布并开源了专为交互式世界模型设计的开源框架“LingBot-World”,其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境 [1] - 该模型由一个可扩展数据引擎驱动,通过从大规模游戏环境中学习物理规律与因果关系,实现与生成世界的实时交互 [2] - 蚂蚁已连续发布三款“灵波”系列具身领域大模型,其通用人工智能战略完成了从数字世界向物理感知层面的关键延伸,使其“基础模型 – 通用应用 – 实体交互”的全栈技术路径进一步清晰 [5] 产品核心技术指标 - 在视频质量、动态程度、长时一致性、交互能力等关键指标上,LingBot-World均逼近谷歌Genie 3 [2] - 通过多阶段训练与并行化加速,模型实现了近10分钟的连续稳定无损生成,解决了长序列生成中的“长时漂移”问题 [3] - 在交互性能上,模型可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内,用户可通过键盘或鼠标实时控制角色与相机视角 [3] 产品核心功能与优势 - 模型具备长时序一致性,在镜头最长移开60秒后返回,目标物体仍存在且结构一致 [3] - 用户可通过文本指令触发环境变化与世界事件,如调整天气、切换画面风格或生成特定事件,且所有变化均可在保持场景几何关系相对稳定的前提下完成 [4] - 模型具备良好的Zero-shot泛化能力,仅需输入一张真实的城市街景照片或游戏截图,即可生成对应的可交互视频流,无需针对单一场景进行额外训练 [4] - 模型支持场景多样化生成,可以改变光照、摆放位置变化等,有助于提升具身智能算法在真实场景中的泛化能力 [5] 数据与训练方法 - 为解决高质量交互数据匮乏的问题,模型采用了混合采集策略:一方面清洗大规模网络视频以覆盖多样化场景,另一方面结合游戏采集与虚幻引擎合成管线,从渲染层直接提取无UI干扰的纯净画面,并同步记录操作指令与相机位姿 [4] 行业意义与应用潜力 - 世界模型正成为连接生成式AI与具身智能的关键桥梁 [5] - LingBot-World凭借长时序一致性、实时交互响应及对“动作-环境变化”因果关系的理解,能够在数字世界中“想象”物理世界,为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间 [5] - 模型在长序列生成与零样本泛化方面的能力,若能在实际应用中验证,或可推动相关领域从有限场景训练向开放场景适应的演进 [5]