谷歌Genie 3
搜索文档
蚂蚁开源世界模型叫板谷歌Genie3,一张图生成10分钟稳定长视频
搜狐财经· 2026-02-01 03:37
公司动态与产品发布 - 蚂蚁灵波科技于1月29日发布并开源了专为交互式世界模型设计的开源框架“LingBot-World”,其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境 [1] - 该模型由一个可扩展数据引擎驱动,通过从大规模游戏环境中学习物理规律与因果关系,实现与生成世界的实时交互 [2] - 蚂蚁已连续发布三款“灵波”系列具身领域大模型,其通用人工智能战略完成了从数字世界向物理感知层面的关键延伸,使其“基础模型 – 通用应用 – 实体交互”的全栈技术路径进一步清晰 [5] 产品核心技术指标 - 在视频质量、动态程度、长时一致性、交互能力等关键指标上,LingBot-World均逼近谷歌Genie 3 [2] - 通过多阶段训练与并行化加速,模型实现了近10分钟的连续稳定无损生成,解决了长序列生成中的“长时漂移”问题 [3] - 在交互性能上,模型可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内,用户可通过键盘或鼠标实时控制角色与相机视角 [3] 产品核心功能与优势 - 模型具备长时序一致性,在镜头最长移开60秒后返回,目标物体仍存在且结构一致 [3] - 用户可通过文本指令触发环境变化与世界事件,如调整天气、切换画面风格或生成特定事件,且所有变化均可在保持场景几何关系相对稳定的前提下完成 [4] - 模型具备良好的Zero-shot泛化能力,仅需输入一张真实的城市街景照片或游戏截图,即可生成对应的可交互视频流,无需针对单一场景进行额外训练 [4] - 模型支持场景多样化生成,可以改变光照、摆放位置变化等,有助于提升具身智能算法在真实场景中的泛化能力 [5] 数据与训练方法 - 为解决高质量交互数据匮乏的问题,模型采用了混合采集策略:一方面清洗大规模网络视频以覆盖多样化场景,另一方面结合游戏采集与虚幻引擎合成管线,从渲染层直接提取无UI干扰的纯净画面,并同步记录操作指令与相机位姿 [4] 行业意义与应用潜力 - 世界模型正成为连接生成式AI与具身智能的关键桥梁 [5] - LingBot-World凭借长时序一致性、实时交互响应及对“动作-环境变化”因果关系的理解,能够在数字世界中“想象”物理世界,为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间 [5] - 模型在长序列生成与零样本泛化方面的能力,若能在实际应用中验证,或可推动相关领域从有限场景训练向开放场景适应的演进 [5]
世界模型,是否正在逼近自己的「ChatGPT时刻」?
机器之心· 2025-11-29 09:49
世界模型的定义与愿景 - 世界模型本质上是预测模型,给定当前状态及动作序列,预测下一个状态 [4] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量3A大作级的虚拟环境模拟 [4] - 终极目标是将世界1:1建模,可能到原子级别,但实际只需依照不同任务目的进行建模 [4] 世界模型的应用前景 - 为自动驾驶、具身智能等多模态任务提供更多数据 [4] - 建立模型与世界的结合以替代传统模拟器 [4] - 最终成为端到端系统的一部分 [4] 数据瓶颈与构建路径 - 自动驾驶公司积累上亿公里数据,但99%都是晴天道路数据,真正危险场景数据稀缺 [5] - 构建世界模型时采集数据的成本在千万级,非研究团队能直接承担 [5] - 可行路径为:先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强模型 [5] - 采用“生成数据 + 真实数据”的混合模式,通过模型、产品、数据的循环推动发展 [5] 技术路径与架构分歧 - 技术路径分歧明显:有团队偏向融入物理信息以保持一致性(如重力),而面向影视、游戏等创意领域则视频生成可能更合适,甚至不需要严格遵守物理规律 [7] - 模型最终形态可能是纯生成的,但随着生成能力增强,对物理规律的掌握会越来越好 [7] - 在架构上,扩散模型从随机噪声中逐步还原内容,更接近物理世界生成方式及人脑解码机制,被认为更适合世界模型 [8] - 观察到技术融合趋势,如OpenAI正探索将不同架构(如token化的扩散)统一 [9] - 扩散模型擅长捕捉现实世界真实分布,但需自回归模型补足时序与逻辑连贯性,已有扩散和自回归结合的工作 [9] 商业化挑战与发展时间表 - 世界模型存在ToB和ToC两方面的商业化挑战:ToB端需定义视频生成数据对用户的价值,ToC端需提升token价值 [10] - 业内人士估计世界模型的“ChatGPT时刻”可能需要三年左右出现 [10] - 目前最困难的是缺乏高质量长视频数据,视频生成时长大多在5到10秒,大厂演示也只能做到一分钟量级 [10] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟,需开拓新研究方向推动AI进步 [10] 未来技术演进方向 - 未来世界模型可能更需要训练强化学习Agent,以及如何将VLA(视觉-语言-动作)进化为WLA(世界-语言-动作) [11]