谷歌推出Genie3:世界模型的ChatGPT时刻?
虎嗅·2025-08-06 20:13

核心观点 - Google DeepMind宣布推出通用世界模型Genie 3,能够根据文本提示生成可互动的3D环境,标志着世界模型领域的重要跃进[1] - 该模型以720p分辨率、24帧/秒实时生成环境,用户可自由移动,场景在几分钟内保持一致[1][7] - Genie 3是公司首个允许实时交互的世界模型,相比Genie 2提高了连贯性和真实性[5] 技术规格与性能 - 分辨率达到720p,交互延迟为实时,交互时长可达数分钟,远超Genie 2的10-20秒[5][17] - 模型采用自回归方式逐帧生成,通过长期记忆模块保持物体一致性,视觉记忆可追溯至一分钟前[16][17][39] - 支持“可提示的世界事件”,用户可通过追加提示改变天气或加入人物等,超越单纯导航控制[7][24][25] 核心能力与应用场景 - 能模拟世界物理属性,呈现水、光线等自然现象及复杂环境交互,如飓风逼近的海岸场景[7][8] - 可生成丰富生态系统,涵盖动物行为与复杂植物,如冰川湖畔与森林小径[10] - 支持模拟动画与虚构场景,生成奇幻景观与富有表现力的动画角色[12] - 能探索特定地点与历史场景,突破地理与时间限制,呈现真实风格的阿尔卑斯山区环境[14] - 为教育和培训创造新机遇,提供广阔空间训练机器人等智能体和自主系统,评估性能并探索弱点[32][40] 行业影响与潜在应用 - 被形容为“生成式游戏引擎”雏形,未来可能颠覆游戏行业,实现“游戏引擎2.0”概念[35][38][45] - 最大用途被认为是训练自动驾驶汽车和机器人,在虚拟世界中安全高效地触发罕见事件进行训练[40] - 技术可能催生新的内容平台,人们通过提示共同创建和探索互联世界,如同升级版的YouTube或VR体验[40] - 世界模型是通向通用人工智能的关键里程碑,为AI代理提供无限的训练场,是迈向AGI的重要一步[4][28][41] 当前局限与未来发展 - 模型仍是研究原型,存在交互时长有限、动作空间受限、多代理互动不稳定、地理精度欠佳等技术瓶颈[33][42][45] - 物理和地理精度有待提升,复杂指令序列容易卡住,社会与多智能体互动尚未解决[44] - 公司以有限的研究预览形式发布,向少数学者和创作者提供早期访问,计划逐步扩大测试者范围[30][31][45]

谷歌推出Genie3:世界模型的ChatGPT时刻? - Reportify