文章核心观点 - 蚂蚁集团旗下的灵波科技(RobbyAnt)开源了其世界模型LingBot-World,该模型在长时记忆稳定性、风格泛化性和动作代理能力方面表现卓越,被认为在质量上可对标Google的Genie 3,是AI领域一项重大且出人意料的进展 [3][8][34] - 该模型与Sora等传统视频生成模型有本质区别:它是一个可实时交互、按指令动态生成世界的“模拟器”,而非预先渲染好的“电影”,代表了“世界的起点” [25][28][31] - 世界模型是AI从虚拟走向现实、实现具身智能的关键技术,其成熟将推动井喷式的具身智能应用进入实体世界,而蚂蚁集团的开源行为加速了这一进程 [96][97][99][103][105] 模型发布与基本信息 - 发布方为蚂蚁集团旗下的具身智能公司灵波科技(RobbyAnt),模型在毫无预兆的情况下突然开源 [3] - 模型已在GitHub上开源第一个版本,并计划发布另外两个版本 [37] - 模型参数量约为28B,推理参数量约为14B [44] 技术特点与性能 - 长时记忆稳定:模型能保持场景的长期一致性,避免“鬼打墙”现象,例如在10分钟的古建筑探索视频中场景未崩塌,且物体位置和遮挡关系随视角变化保持正确 [19][55][57][58] - 风格泛化性极强:模型能同时处理超写实、游戏画风等多种风格,这得益于其训练数据混合了真实视频、游戏录像和UE合成场景 [64][66][68] - 优秀的动作代理能力:模型支持通过方向键(WASD)或动作指令进行实时控制,并能结合AI代理实现角色在生成世界中的自主运动、规划和避障,超越了简单的“步行模拟器” [75][77][79][82][86][89] 模型版本与规格 - LingBot-World-Base (Cam):已开源,支持通过相机位姿信号控制镜头运动(如推进、环绕),提供480P和720P推理配置 [39][40] - LingBot-World-Base (Act):待开源,支持通过动作指令控制主体行为,将可控性从镜头扩展到行为层面 [41][42] - LingBot-World-Fast:待开源,专注于低延迟与实时交互,目标延迟低于1秒,帧率可达每秒16帧,但图像质量可能略低于Base系列 [43] 行业意义与定位 - 该模型与Google Genie 3技术路线一致,属于可实时生成的世界模型,填补了Genie 3发布后数月内该领域的空白 [32][34] - 世界模型对游戏、影视、娱乐行业有重要意义,其核心应用场景是为具身智能提供低成本、高保真的训练和试错环境 [96] - 蚂蚁集团此次开源世界模型,将相关技术进程向前推进了一大步,并选择开源以造福整个行业 [99][100]
蚂蚁深夜开源比肩Genie 3的世界模型,我也看到了具身智能的未来。
数字生命卡兹克·2026-01-29 10:06