Workflow
Genie 1
icon
搜索文档
谷歌深夜放出「创世引擎」Genie 3,一句话秒生宇宙,终极模拟器觉醒
36氪· 2025-08-06 15:32
全球最强「世界AI模拟器」今夜诞生! 刚刚,谷歌DeepMind祭出新一代通用世界模型——Genie 3,能模拟出史无前例的丰富交互环境。 总有一天,UE5所有复杂功能,都能被一个数据驱动的「注意力权重」吸纳。 未来,只需要将手柄指令作为输入,即可渲染一段时空中的像素画面。 一句话,Genie 3即可生成一个动态世界。 令人惊艳的是,它能以每秒20-24帧速度,实时生成720p画面,还能持续数分钟一致性。 相比于前代,Genie 3在生成时长方面也得到了史诗级的加强——一口气能搞定长达数分钟,且内容连贯的可交互世界。 英伟达Jim Fan高度评价,「这就是游戏引擎2.0时代」! 如今,Genie 3的问世,标志着世界模拟AI迈向了全新高度,加速了人类通向AGI/ASI的终极目标。 AI实时交互模拟,真·矩阵世界 一直以来,「世界模型」被业界看作是通往AGI道路上的关键基石。 因为,它能让AI智能体在无限丰富的模拟环境中接受训练。 十多年来,谷歌DeepMind一直在模拟环境领域引领前沿研究,从训练AI智能体玩转即时战略游戏,到为开放式学习和机器人技术开发模拟环境。 正是在这些研究的推动下,他们开发出了「世界模 ...
DeepMind独家访谈实录,解密Genie 3世界模型,将颠覆游戏与机器人行业未来
36氪· 2025-08-06 14:14
核心技术突破 - 谷歌DeepMind研发的Genie 3 AI技术可通过文本提示在约3秒内生成720p分辨率、可交互且环境一致的3D虚拟世界 [1][5] - 该技术融合生成式视频模型、游戏引擎和模拟器特性,实现实时交互及长时预测能力,环境一致性通过大规模训练自然涌现 [2][5][12] - 相比前代Genie 2的360p分辨率和20秒生成时长,Genie 3将分辨率提升至720p并延长交互时间至数分钟,错误率显著降低 [3][6][11] 技术演进路径 - Genie 1基于3万小时2D游戏录像训练,具备时空视频标记器和无监督动作学习能力,发现8种离散动作并展现2.5D视差效果 [2][3] - Genie 2实现3D模拟能力,支持烟雾、火焰、水流等逼真光照效果,并具备物体记忆功能 [3][11] - 技术架构从图像提示升级为文本提示输入,增加场景多样性并支持可提示的世界事件(如添加滑雪者或鹿群) [5][16] 行业应用前景 - 为机器人和自动驾驶训练提供高保真模拟环境,可安全模拟罕见事件(如无人机避障、行人突然穿行) [5][15][20] - 推动娱乐产业变革,支持生成沉浸式VR体验和新型交互娱乐模式,潜在价值达万亿美元级 [1][7][17] - 替代传统游戏引擎部分功能,实现类似Unreal Engine 5.6的实时动态图形生成,但当前仍存在计算硬件依赖(TPU网络)和生成局限性 [7][12][19] 技术实现特点 - 采用扩散模型架构(如VO融合),逐帧生成像素并保持跨帧一致性,无需显式3D编程 [5][12][13] - 训练数据可能包含YouTube海量视频,模型通过分析帧间变化推断物理规则和动作空间 [2][8][15] - 目前仅支持单代理交互,多代理系统正在开发中,智能体行为通过模型权重嵌入实现 [6][18][19] 发展现状与规划 - 当前为研究原型,未开放公众使用,出于安全考虑将通过测试计划逐步部署 [7] - 未来方向包括多智能体模拟、与语言模型(如Gemini)结合,以及通过外循环增强系统开放性 [10][18][19] - 计算需求较高,依赖TPU网络运行,但演示显示响应速度达3秒内,具备实时交互能力 [5][8][19]