对标Genie 3,蚂蚁灵波开源世界模型LingBot-World
凤凰网·2026-01-29 11:15

为解决世界模型训练中高质量交互数据匮乏的问题,LingBot-World采用了混合采集策略:一方面通过 清洗大规模的网络视频以覆盖多样化的场景,另一方面结合游戏采集与虚幻引擎(UE)合成管线,从 渲染层直接提取无UI干扰的纯净画面,并同步记录操作指令与相机位姿,为模型学习"动作如何改变环 境"提供精确对齐的训练信号。 凤凰网科技讯(作者/董雨晴) 1月29日,继连续发布空间感知与VLA基座模型后,蚂蚁灵波科技开源 发布世界模型LingBot-World。据披露,该模型在视频质量、动态程度、长时一致性、交互能力等关键 指标上追平Google Genie 3,目标是为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操 控的"数字演练场"。 针对视频生成中最常见的"长时漂移"问题(生成时间一长就可能出现物体变形、细节塌陷、主体消失或 场景结构崩坏等现象),LingBot-World通过多阶段训练以及并行化加速,实现了近10分钟的连续稳定 无损生成,为长序列、多步骤的复杂任务训练提供支撑。 交互性能上,LingBot-World可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内。用户可 通过键盘或 ...