谷歌深夜放出「创世引擎」Genie 3，一句话秒生宇宙，终极模拟器觉醒

产品核心能力 - 谷歌DeepMind发布新一代通用世界模型Genie 3，能模拟出史无前例的丰富交互环境 [1] - Genie 3能以每秒20-24帧速度实时生成720p画面，并能持续数分钟保持内容一致性 [2] - 该模型是谷歌DeepMind首个支持实时交互的世界模型，交互延迟为实时，交互时长可达数分钟 [10] - 模型具备模拟物理世界的能力，可生成水流、光照等自然现象并与复杂环境交互 [15] - 模型能生成充满生命力的自然系统，包括错综复杂的森林、花草等植物以及各种生物 [21] - 模型可创造奇幻场景和富有表现力的动画角色，如彩虹桥上的卡通狐狸、森林中的萤火虫 [26] - 模型能探索地点与历史场景，重现古代文明辉煌，实现跨越时空的体验 [31] 技术实现与突破 - 为实现实时交互与长时程一致性，模型需在自回归生成每一帧时考虑不断延长的先前轨迹，例如在一分钟后重访地点时需调取一分钟前的信息 [36] - 模型生成的环境能在数分钟内基本保持一致，视觉记忆最远可追溯到一分钟前，这是一种涌现能力 [38][46] - 相较于依赖显式3D表征的NeRFs和高斯溅射等技术，Genie 3生成的世界更为动态和丰富，是逐帧创造出来的 [46] - 除了导航输入，模型还支持由提示词驱动的世界事件，可通过一句话生成世界，例如改变天气、引入新物体或角色 [47] 行业应用与影响 - 世界模型被业界视为通往AGI道路上的关键基石，能让AI智能体在无限丰富的模拟环境中接受训练 [7] - Genie 3为新版SIMA智能体生成多个世界以验证其兼容性，智能体可通过发送导航指令完成任务，模型的一致性支持执行更长的动作序列以实现更复杂目标 [52][56] - 该模型能为教育和培训创造新机遇，帮助学生学习、助力专家积累经验，并为机器人和自主系统等AI智能体提供广阔的训练空间 [64] - 英伟达Jim Fan评价其为游戏引擎2.0时代，并认为未来UE5所有复杂功能都能被数据驱动的注意力权重吸纳 [4] - 谷歌DeepMind研究员Ali Eslami称Genie 3是自ChatGPT以来最令人印象深刻的演示 [13]