Workflow
谷歌“世界模拟器”深夜上线!一句话生成3D世界,支持分钟级超长记忆
具身智能之心·2025-08-07 08:03

谷歌DeepMind Genie 3技术突破 - 新一代通用世界模型Genie 3支持720P画质、每秒24帧实时导航及分钟级一致性保持,性能显著优于Genie 2的360P画质和非实时交互 [3][4][12] - 生成内容具备3D空间一致性,可逐帧创建动态丰富的世界,支持长达57秒的连续场景生成 [5][13] - 能够模拟物理特性(如水面效果)和复杂环境相互作用,并可构建虚拟场景(如童话世界、魔法森林) [14][16][18][20][21] 技术对比与优势 - 横向对比显示Genie 3在分辨率(720P)、交互时长(分钟级)、控制方式(支持文本提示事件)上超越GameNGen、Genie 2等同类模型 [13] - 长期环境一致性表现突出:物体在几分钟内保持物理一致性,视觉记忆可追溯至一分钟前(如雅典建筑场景中树木的一致性) [25][26][28][29] - 支持基于文本提示动态生成事件(如草原背景中替换拖拉机为棕熊,或伦敦河畔添加恐龙) [31][33] 应用与行业影响 - 推动具身智能体研究:与SIMA智能体兼容,可模拟未来事件以支持复杂目标训练(如面包店、农贸市场场景交互) [35][37][38][39][41] - 被行业评价为“通往AGI的关键拼图”,潜在应用包括开放式学习、机器人技术及虚拟环境开发 [9][44] - 目前以研究预览形式开放测试,主要面向专业研究者和创作者 [11] (注:社群推广、论文辅导等非技术内容已按规则跳过)