Workflow
Genie 1
icon
搜索文档
谷歌深夜放出「创世引擎」Genie 3,一句话秒生宇宙,终极模拟器觉醒
36氪· 2025-08-06 15:32
产品核心能力 - 谷歌DeepMind发布新一代通用世界模型Genie 3,能模拟出史无前例的丰富交互环境 [1] - Genie 3能以每秒20-24帧速度实时生成720p画面,并能持续数分钟保持内容一致性 [2] - 该模型是谷歌DeepMind首个支持实时交互的世界模型,交互延迟为实时,交互时长可达数分钟 [10] - 模型具备模拟物理世界的能力,可生成水流、光照等自然现象并与复杂环境交互 [15] - 模型能生成充满生命力的自然系统,包括错综复杂的森林、花草等植物以及各种生物 [21] - 模型可创造奇幻场景和富有表现力的动画角色,如彩虹桥上的卡通狐狸、森林中的萤火虫 [26] - 模型能探索地点与历史场景,重现古代文明辉煌,实现跨越时空的体验 [31] 技术实现与突破 - 为实现实时交互与长时程一致性,模型需在自回归生成每一帧时考虑不断延长的先前轨迹,例如在一分钟后重访地点时需调取一分钟前的信息 [36] - 模型生成的环境能在数分钟内基本保持一致,视觉记忆最远可追溯到一分钟前,这是一种涌现能力 [38][46] - 相较于依赖显式3D表征的NeRFs和高斯溅射等技术,Genie 3生成的世界更为动态和丰富,是逐帧创造出来的 [46] - 除了导航输入,模型还支持由提示词驱动的世界事件,可通过一句话生成世界,例如改变天气、引入新物体或角色 [47] 行业应用与影响 - 世界模型被业界视为通往AGI道路上的关键基石,能让AI智能体在无限丰富的模拟环境中接受训练 [7] - Genie 3为新版SIMA智能体生成多个世界以验证其兼容性,智能体可通过发送导航指令完成任务,模型的一致性支持执行更长的动作序列以实现更复杂目标 [52][56] - 该模型能为教育和培训创造新机遇,帮助学生学习、助力专家积累经验,并为机器人和自主系统等AI智能体提供广阔的训练空间 [64] - 英伟达Jim Fan评价其为游戏引擎2.0时代,并认为未来UE5所有复杂功能都能被数据驱动的注意力权重吸纳 [4] - 谷歌DeepMind研究员Ali Eslami称Genie 3是自ChatGPT以来最令人印象深刻的演示 [13]
DeepMind独家访谈实录,解密Genie 3世界模型,将颠覆游戏与机器人行业未来
36氪· 2025-08-06 14:14
核心技术突破 - 谷歌DeepMind研发的Genie 3 AI技术可通过文本提示在约3秒内生成720p分辨率、可交互且环境一致的3D虚拟世界 [1][5] - 该技术融合生成式视频模型、游戏引擎和模拟器特性,实现实时交互及长时预测能力,环境一致性通过大规模训练自然涌现 [2][5][12] - 相比前代Genie 2的360p分辨率和20秒生成时长,Genie 3将分辨率提升至720p并延长交互时间至数分钟,错误率显著降低 [3][6][11] 技术演进路径 - Genie 1基于3万小时2D游戏录像训练,具备时空视频标记器和无监督动作学习能力,发现8种离散动作并展现2.5D视差效果 [2][3] - Genie 2实现3D模拟能力,支持烟雾、火焰、水流等逼真光照效果,并具备物体记忆功能 [3][11] - 技术架构从图像提示升级为文本提示输入,增加场景多样性并支持可提示的世界事件(如添加滑雪者或鹿群) [5][16] 行业应用前景 - 为机器人和自动驾驶训练提供高保真模拟环境,可安全模拟罕见事件(如无人机避障、行人突然穿行) [5][15][20] - 推动娱乐产业变革,支持生成沉浸式VR体验和新型交互娱乐模式,潜在价值达万亿美元级 [1][7][17] - 替代传统游戏引擎部分功能,实现类似Unreal Engine 5.6的实时动态图形生成,但当前仍存在计算硬件依赖(TPU网络)和生成局限性 [7][12][19] 技术实现特点 - 采用扩散模型架构(如VO融合),逐帧生成像素并保持跨帧一致性,无需显式3D编程 [5][12][13] - 训练数据可能包含YouTube海量视频,模型通过分析帧间变化推断物理规则和动作空间 [2][8][15] - 目前仅支持单代理交互,多代理系统正在开发中,智能体行为通过模型权重嵌入实现 [6][18][19] 发展现状与规划 - 当前为研究原型,未开放公众使用,出于安全考虑将通过测试计划逐步部署 [7] - 未来方向包括多智能体模拟、与语言模型(如Gemini)结合,以及通过外循环增强系统开放性 [10][18][19] - 计算需求较高,依赖TPU网络运行,但演示显示响应速度达3秒内,具备实时交互能力 [5][8][19]