公司产品发布与性能 - 蚂蚁灵波科技开源发布世界模型LingBot-World,该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上媲美Google Genie 3 [1][3] - 模型旨在为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的“数字演练场” [1][3] - 针对视频生成的“长时漂移”问题,模型通过多阶段训练及并行化加速,实现了近10分钟的连续稳定无损生成,支撑长序列、多步骤的复杂任务训练 [1][4] - 模型交互性能可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内,用户可通过键盘或鼠标实时控制角色与相机视角并获得即时反馈 [1][4] - 用户可通过文本触发环境变化与世界事件,如调整天气、改变画面风格或生成特定事件,并在保持场景几何关系相对一致的前提下完成变化 [1][4] 模型技术特点与优势 - 模型具备Zero-shot泛化能力,仅需输入一张真实照片或游戏截图即可生成可交互视频流,无需针对单一场景进行额外训练或数据采集,降低了部署与使用成本 [2][4] - 根据性能对比表格,LingBot-World在生成视野、动态程度和分辨率上具备优势,其生成视野为“长”,动态程度为“高”,分辨率为720p [3][6] - 性能对比显示,LingBot-World在多个关键维度上优于或等同于其他主流模型,如Matrix-Game 2.0、Yume-1.5、HY-World 1.5、Mirage 2和Genie 3 [3][6] 公司战略与行业影响 - 随着“灵波”系列连续发布三款具身领域大模型,公司的AGI战略实现了从数字世界到物理感知的关键延伸 [2][5] - 这标志着公司“基础模型-通用应用-实体交互”的全栈路径已然清晰 [2][5] - 公司正通过InclusionAI社区将模型全部开源,与行业共建,探索AGI边界,一个深度融合开源开放并服务于真实场景的AGI生态正在加速成型 [2][5]
蚂蚁灵波开源世界模型LingBot-World,对标Genie 3
新浪财经·2026-01-29 10:00