对标Genie 3,蚂蚁灵波开源世界模型LingBot-World
凤凰网·2026-01-29 11:15

模型发布与核心能力 - 蚂蚁灵波科技开源发布世界模型LingBot-World,该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上追平Google Genie 3 [1] - 模型旨在为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的“数字演练场” [1] - 模型权重及推理代码已面向社区开放 [3] 技术性能与突破 - 针对视频生成的“长时漂移”问题,通过多阶段训练及并行化加速,实现了近10分钟的连续稳定无损生成 [1] - 在交互性能上,模型可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内 [1] - 用户可通过键盘或鼠标实时控制角色与相机视角,画面随指令即时反馈 [1] - 用户可通过文本触发天气、画面风格等环境变化与世界事件,并在保持场景几何关系相对一致的前提下完成变化 [1] 泛化能力与数据策略 - 模型具备Zero-shot泛化能力,输入一张真实照片或游戏截图即可生成可交互视频流,无需针对单一场景进行额外训练,降低了部署与使用成本 [2] - 为解决高质量交互数据匮乏问题,采用了混合采集策略:清洗大规模网络视频以覆盖多样化场景,并结合游戏采集与虚幻引擎合成管线,从渲染层提取纯净画面并同步记录操作指令与相机位姿 [2]

对标Genie 3,蚂蚁灵波开源世界模型LingBot-World - Reportify