Genie 1 - 财报，业绩电话会，研报，新闻

Genie 1

搜索文档

36氪· 2025-08-06 15:32

产品核心能力 - 谷歌DeepMind发布新一代通用世界模型Genie 3，能模拟出史无前例的丰富交互环境 [1] - Genie 3能以每秒20-24帧速度实时生成720p画面，并能持续数分钟保持内容一致性 [2] - 该模型是谷歌DeepMind首个支持实时交互的世界模型，交互延迟为实时，交互时长可达数分钟 [10] - 模型具备模拟物理世界的能力，可生成水流、光照等自然现象并与复杂环境交互 [15] - 模型能生成充满生命力的自然系统，包括错综复杂的森林、花草等植物以及各种生物 [21] - 模型可创造奇幻场景和富有表现力的动画角色，如彩虹桥上的卡通狐狸、森林中的萤火虫 [26] - 模型能探索地点与历史场景，重现古代文明辉煌，实现跨越时空的体验 [31] 技术实现与突破 - 为实现实时交互与长时程一致性，模型需在自回归生成每一帧时考虑不断延长的先前轨迹，例如在一分钟后重访地点时需调取一分钟前的信息 [36] - 模型生成的环境能在数分钟内基本保持一致，视觉记忆最远可追溯到一分钟前，这是一种涌现能力 [38][46] - 相较于依赖显式3D表征的NeRFs和高斯溅射等技术，Genie 3生成的世界更为动态和丰富，是逐帧创造出来的 [46] - 除了导航输入，模型还支持由提示词驱动的世界事件，可通过一句话生成世界，例如改变天气、引入新物体或角色 [47] 行业应用与影响 - 世界模型被业界视为通往AGI道路上的关键基石，能让AI智能体在无限丰富的模拟环境中接受训练 [7] - Genie 3为新版SIMA智能体生成多个世界以验证其兼容性，智能体可通过发送导航指令完成任务，模型的一致性支持执行更长的动作序列以实现更复杂目标 [52][56] - 该模型能为教育和培训创造新机遇，帮助学生学习、助力专家积累经验，并为机器人和自主系统等AI智能体提供广阔的训练空间 [64] - 英伟达Jim Fan评价其为游戏引擎2.0时代，并认为未来UE5所有复杂功能都能被数据驱动的注意力权重吸纳 [4] - 谷歌DeepMind研究员Ali Eslami称Genie 3是自ChatGPT以来最令人印象深刻的演示 [13]

世界模型

AGI/ASI

Artificial Intelligence

Artificial Intelligence

Genie 3

Genie 1

Genie 2

DeepMind独家访谈实录，解密Genie 3世界模型，将颠覆游戏与机器人行业未来

36氪· 2025-08-06 14:14

核心技术突破 - 谷歌DeepMind研发的Genie 3 AI技术可通过文本提示在约3秒内生成720p分辨率、可交互且环境一致的3D虚拟世界 [1][5] - 该技术融合生成式视频模型、游戏引擎和模拟器特性，实现实时交互及长时预测能力，环境一致性通过大规模训练自然涌现 [2][5][12] - 相比前代Genie 2的360p分辨率和20秒生成时长，Genie 3将分辨率提升至720p并延长交互时间至数分钟，错误率显著降低 [3][6][11] 技术演进路径 - Genie 1基于3万小时2D游戏录像训练，具备时空视频标记器和无监督动作学习能力，发现8种离散动作并展现2.5D视差效果 [2][3] - Genie 2实现3D模拟能力，支持烟雾、火焰、水流等逼真光照效果，并具备物体记忆功能 [3][11] - 技术架构从图像提示升级为文本提示输入，增加场景多样性并支持可提示的世界事件（如添加滑雪者或鹿群） [5][16] 行业应用前景 - 为机器人和自动驾驶训练提供高保真模拟环境，可安全模拟罕见事件（如无人机避障、行人突然穿行） [5][15][20] - 推动娱乐产业变革，支持生成沉浸式VR体验和新型交互娱乐模式，潜在价值达万亿美元级 [1][7][17] - 替代传统游戏引擎部分功能，实现类似Unreal Engine 5.6的实时动态图形生成，但当前仍存在计算硬件依赖（TPU网络）和生成局限性 [7][12][19] 技术实现特点 - 采用扩散模型架构（如VO融合），逐帧生成像素并保持跨帧一致性，无需显式3D编程 [5][12][13] - 训练数据可能包含YouTube海量视频，模型通过分析帧间变化推断物理规则和动作空间 [2][8][15] - 目前仅支持单代理交互，多代理系统正在开发中，智能体行为通过模型权重嵌入实现 [6][18][19] 发展现状与规划 - 当前为研究原型，未开放公众使用，出于安全考虑将通过测试计划逐步部署 [7] - 未来方向包括多智能体模拟、与语言模型（如Gemini）结合，以及通过外循环增强系统开放性 [10][18][19] - 计算需求较高，依赖TPU网络运行，但演示显示响应速度达3秒内，具备实时交互能力 [5][8][19]

世界模型

生成式交互环境

Artificial Intelligence

Artificial Intelligence

Genie 3

Genie 2

Genie 1