Genie 2

搜索文档
谷歌深夜放出「创世引擎」Genie 3,一句话秒生宇宙,终极模拟器觉醒
36氪· 2025-08-06 15:32
全球最强「世界AI模拟器」今夜诞生! 刚刚,谷歌DeepMind祭出新一代通用世界模型——Genie 3,能模拟出史无前例的丰富交互环境。 总有一天,UE5所有复杂功能,都能被一个数据驱动的「注意力权重」吸纳。 未来,只需要将手柄指令作为输入,即可渲染一段时空中的像素画面。 一句话,Genie 3即可生成一个动态世界。 令人惊艳的是,它能以每秒20-24帧速度,实时生成720p画面,还能持续数分钟一致性。 相比于前代,Genie 3在生成时长方面也得到了史诗级的加强——一口气能搞定长达数分钟,且内容连贯的可交互世界。 英伟达Jim Fan高度评价,「这就是游戏引擎2.0时代」! 如今,Genie 3的问世,标志着世界模拟AI迈向了全新高度,加速了人类通向AGI/ASI的终极目标。 AI实时交互模拟,真·矩阵世界 一直以来,「世界模型」被业界看作是通往AGI道路上的关键基石。 因为,它能让AI智能体在无限丰富的模拟环境中接受训练。 十多年来,谷歌DeepMind一直在模拟环境领域引领前沿研究,从训练AI智能体玩转即时战略游戏,到为开放式学习和机器人技术开发模拟环境。 正是在这些研究的推动下,他们开发出了「世界模 ...
DeepMind独家访谈实录,解密Genie 3世界模型,将颠覆游戏与机器人行业未来
36氪· 2025-08-06 14:14
核心技术突破 - 谷歌DeepMind研发的Genie 3 AI技术可通过文本提示在约3秒内生成720p分辨率、可交互且环境一致的3D虚拟世界 [1][5] - 该技术融合生成式视频模型、游戏引擎和模拟器特性,实现实时交互及长时预测能力,环境一致性通过大规模训练自然涌现 [2][5][12] - 相比前代Genie 2的360p分辨率和20秒生成时长,Genie 3将分辨率提升至720p并延长交互时间至数分钟,错误率显著降低 [3][6][11] 技术演进路径 - Genie 1基于3万小时2D游戏录像训练,具备时空视频标记器和无监督动作学习能力,发现8种离散动作并展现2.5D视差效果 [2][3] - Genie 2实现3D模拟能力,支持烟雾、火焰、水流等逼真光照效果,并具备物体记忆功能 [3][11] - 技术架构从图像提示升级为文本提示输入,增加场景多样性并支持可提示的世界事件(如添加滑雪者或鹿群) [5][16] 行业应用前景 - 为机器人和自动驾驶训练提供高保真模拟环境,可安全模拟罕见事件(如无人机避障、行人突然穿行) [5][15][20] - 推动娱乐产业变革,支持生成沉浸式VR体验和新型交互娱乐模式,潜在价值达万亿美元级 [1][7][17] - 替代传统游戏引擎部分功能,实现类似Unreal Engine 5.6的实时动态图形生成,但当前仍存在计算硬件依赖(TPU网络)和生成局限性 [7][12][19] 技术实现特点 - 采用扩散模型架构(如VO融合),逐帧生成像素并保持跨帧一致性,无需显式3D编程 [5][12][13] - 训练数据可能包含YouTube海量视频,模型通过分析帧间变化推断物理规则和动作空间 [2][8][15] - 目前仅支持单代理交互,多代理系统正在开发中,智能体行为通过模型权重嵌入实现 [6][18][19] 发展现状与规划 - 当前为研究原型,未开放公众使用,出于安全考虑将通过测试计划逐步部署 [7] - 未来方向包括多智能体模拟、与语言模型(如Gemini)结合,以及通过外循环增强系统开放性 [10][18][19] - 计算需求较高,依赖TPU网络运行,但演示显示响应速度达3秒内,具备实时交互能力 [5][8][19]
AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
机器之心· 2025-06-13 10:32
通用人工智能与世界模型 - 谷歌DeepMind研究证明,能够处理复杂长期任务的AI智能体必须学习内部世界模型,且该模型可从智能体行为中提取[3][4][5] - 世界模型是实现多步骤目标导向行为的必要要素,提升智能体性能需学习更精确的世界模型[5][20][34] - 实验显示智能体处理目标深度(n)增加时,提取的世界模型误差按O(δ/√n)+O(1/n)比例下降[32][33][34] 理论框架构建 - 研究基于四要素构建数学框架:环境(20状态5动作cMP)、目标(LTL逻辑表达)、智能体(有界目标条件策略)、世界模型(预测环境转移函数)[24][25][27][28] - 有界智能体定义为在最大目标深度n下失败率δ≤1的策略,其最优策略可最大化目标实现概率[28][29] - 世界模型精度与智能体能力正相关,当δ→0且n≫1时模型误差趋近于0[31][33][34] 算法与实验验证 - 开发Algorithm 1算法通过查询智能体复合目标行为来估计状态转移概率Pss'(a),精度参数n与目标深度2n+1相关[37][38] - 在20状态5动作稀疏转移环境中测试,即使δ=1的最坏情况下仍能恢复准确世界模型,平均误差随目标深度增加而降低[40][46] - 算法填补了"策略+目标→世界模型"的三角关系,区别于传统规划(模型+目标→策略)和IRL(模型+策略→目标)[41][43] 行业技术关联 - 研究支持Ilya Sutskever观点:大语言模型本质是学习世界模型压缩表征,预测准确度反映模型保真度[16][17][19] - Genie 2基础世界模型可通过单图像生成无限3D环境,为智能体提供经验流训练,标志从人类数据时代向经验时代转变[50][51][52] - 领域泛化需比任务泛化更深层因果理解,适应分布变化的智能体必须学习因果世界模型[45][47]
转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性
机器之心· 2025-05-11 11:20
研究背景 - 基于视频生成模型的可交互世界生成近期受到广泛关注,但长时序一致性仍是未解决的挑战[1][5] - 谷歌Genie 2、阿里The Matrix、Meta Navigation World Models等现有方法在生成质量与交互性上有进展,但长时一致性问题突出[5] - 传统方法在视角转换时场景内容会显著变化,缺乏连续性[6][7] 模型创新 - WorldMem通过引入记忆机制(记忆库+贪心检索+融合模块)实现长时序一致生成[8][18][19] - 记忆库持续存储关键历史信息(图像帧+位姿/时间戳),采用贪心匹配算法高效检索[18][21] - 记忆融合模块通过跨注意力机制动态关联历史与当前帧,增强空间一致性[20][22] - 状态嵌入设计(位姿Plücker坐标+时间MLP映射)提升时空表达精度[25] 技术实现 - 基于Oasis和Conditional DiT构建生成主干,采用Diffusion Forcing训练策略[17] - 记忆读写模块支持历史信息存取,记忆融合模块引导当前生成[15][19] - 相对嵌入机制和帧独立检索策略优化信息利用效率[22][25] 性能表现 - 在Minecraft数据集上: - 短时生成PSNR达27.01,超越Diffusion Forcing的26.56[24] - 长时生成(300帧)PSNR保持25.32,显著优于基线方法的18.04[24][26] - rFID指标降至15.37,远低于基线51.28[24] - 支持动态交互(如雪地放置南瓜灯融化积雪、种植作物生长过程)[13][31] - 真实场景验证显示记忆机制增强一致性[33] 行业应用 - 视频生成模型(如WAN 2.1、Hunyuan)展示出复杂环境仿真潜力[36] - 交互式视频生成模型有望成为虚拟仿真、交互智能领域的核心技术[37][38] - WorldMem为构建持久、交互式虚拟世界提供关键技术路径[38]
谷歌DeepMind CEO展示Genie 2:机器人训练新时代
搜狐财经· 2025-04-22 10:24
谷歌DeepMind Genie 2技术突破 - Genie 2能够从单一静态图像生成可探索的3D虚拟世界,为AI代理和机器人提供逼真的模拟环境 [1] - 在演示中,Genie 2将加州瀑布顶部照片转化为类似第一人称视角的视频游戏场景,用户或AI代理可以在虚拟环境中自由移动 [1] - Genie 2的"世界模型"能够动态生成环境,模拟现实世界的物理特性 [3] Genie 2的应用前景 - 该技术不仅适用于娱乐领域(如生成游戏和视频),更重要的是为AI和机器人提供高效的训练平台 [3] - Genie 2可以生成近乎无限的数据量,允许机器人在虚拟世界中进行初步学习,随后通过少量现实世界数据进行微调 [3] - 在演示中,AI控制的骑士角色在由Genie 2生成的3D环境中自主完成任务,如从三个门廊中选择正确路径并爬上楼梯 [3] 技术发展方向 - DeepMind正在探索利用谷歌地图、谷歌地球和街景视图等地理数据,进一步增强AI的世界理解能力 [6] - Genie 2能将静态图像(如街景或个人度假照片)转化为交互式3D场景,为机器人训练和用户体验开辟新可能性 [6] - 未来版本的Genie模型将能够创建更多样化、复杂的虚拟世界,为机器人学习新技能、执行任务以及与人类和物体交互提供支持 [6] 行业影响 - 该技术有望革新机器人开发,大幅减少对现实世界数据的依赖 [3] - 可能在工业、医疗和探索等领域推动智能化应用的广泛普及 [6] - 为机器人训练提供低成本、高效率的解决方案,解决传统机器人数据采集受限于现实世界复杂性和高成本的问题 [3]
喝点VC | 顶级风投Lightspeed发布生成式游戏报告:世界模型将是AI的下一个主要形式
Z Potentials· 2025-03-22 11:59
人工智能在游戏和互动媒体领域的应用 - 顶级风投公司Lightspeed已在AI技术栈领域投资约25亿美元,覆盖基础模型、开发者工具及多个行业应用[2] - 世界模型作为AI新形式,能模拟虚拟世界随主体行为的演变,实现三维互动体验,被视为"4D"技术[3][9] - 生成式AI已应用于文本、音频、图像和视频创作,模型能力呈指数级增长而非线性[6][7] 世界模型技术发展历程 - 2018年世界模型框架通过VAE和RNN实现游戏世界内部模拟,掌握《CarRacing-v0》[14] - 2019年PlaNet通过潜在动力学实现高效环境抽象和决策[17] - 2020年Dreamer将潜在动力学与强化学习结合,实现详细轨迹模拟[19] - 2023年DeepMind的Genie首次实现真正意义上的交互式二维世界生成[22] 当前世界模型技术进展 - DeepMind Genie 2实现三维环境交互,具备长时记忆功能但稳定性不足[24] - 腾讯GameGen-O使用扩散变压器模型,基于百万级游戏视频片段训练[28] - DIAMOND模型利用扩散技术生成高保真视频模拟,包括可玩CS:GO环境[30] - Decart的Oasis实现类似《我的世界》的实时生成交互,运行速度达20fps[33] 世界模型未来发展趋势 - 短期内难以取代3A游戏,将创造全新体验如"玩"书籍或实时执导电影[44] - 状态性和内存限制是主要技术瓶颈,需突破有状态架构[45] - 法律版权问题复杂,涉及衍生作品认定和训练数据合法性[48] - 三维数据集缺乏制约发展,需大规模三维数据保证空间一致性[49] - 计算效率持续提升,成本障碍有望逐步消除[51]
AI 月报:10 亿美元训练不出 GPT-5;低成本中国开源大模型走红;AI 幻觉不全是坏处
晚点LatePost· 2025-01-07 22:59
技术进展 - OpenAI训练GPT-5遇阻,已投入20个月和至少10亿美元算力成本,但性能提升未达预期,两次从头训练均未突破博士生水平目标[4] - 数据短缺迫使OpenAI采用人工生成数据(工程师/科学家每日5000字)和模型生成数据(o1模型)补充,但规模仍远低于GPT-4的10万亿字训练量[5] - o3模型在CodeForces编程竞赛得分比o1提升44%,数学测试EpochAI解决25.2%问题(其他模型<2%),但AGI评测得分因数据预训练存在争议[7][9] - 强化学习重要性提升,OpenAI推出RFT微调方法,LangChain报告显示人类反馈强化学习应用增长18倍[5][9] - 世界模型取得突破:DeepMind的Genie 2生成可交互虚拟场景,李飞飞团队实现AI图片转3D场景,CMU/英伟达开源机器人模拟系统Genesis[14] 行业竞争 - Google Gemini 2.0 Flash系列模型抢占Chatbot Arena前三,OpenAI首次失去榜首地位[18][21] - 中国开源模型崛起:DeepSeek-V3以578万美元训练成本逼近GPT-4o性能,Qwen2.5-plus超越Meta Llama 3.1[23][26] - 芯片领域博通市值破万亿美元,2024年AI收入增长220%至122亿美元,为Google/Meta等提供自研芯片方案[29] - 英伟达推出B300 GPU适配o系列模型,算力/显存提升50%,xAI计划将H100算力中心从10万张扩展至100万张[33][34] 应用与商业化 - OpenAI推出12项ChatGPT升级:订阅费最高2000美元/月,集成Sora视频生成、电话交互、生产力工具插件等功能[36] - Agent成为新趋势,Google Gemini 2.0专为Agent优化,YC预测其市场规模将比SaaS大10倍[12][13] - 大模型嵌入传统行业:Salesforce招聘2000人推广AI Agent,微软Phi-4模型(140亿参数)性能超越更大模型[38][12] - AI硬件进展:Meta计划为Ray-Ban眼镜增加屏幕,OpenAI重组机器人团队,中国预计2025年出现"百镜大战"[40] 投融资动态 - 21家AI公司获超5000万美元融资:中国智谱AI获30亿元(估值200亿元),阶跃星辰聚焦多模态模型,Liquid AI开发新型神经网络架构[42][43] - 基础设施领域Databricks融资86亿美元(估值620亿美元),Tenstorrent获7亿美元开发RISC-V架构AI芯片[44] - 应用层公司多成立于ChatGPT前:Zest AI(金融风控)、Tractian(工业设备监测)、Speak(语言学习)等获大额融资[46][47][48] 科学价值 - 大模型"幻觉"被科学家重新定义:加速抗生素研发(MIT)、生成全新蛋白质(诺奖得主Baker实验室获100项专利)[50][51]