NitroGen
搜索文档
游戏AI来了,英伟达新模型看直播学会所有游戏,GPT-5.2秒杀塞尔达
36氪· 2025-12-25 15:06
英伟达NitroGen模型的技术突破 - 公司发布名为NitroGen的新模型,其核心逻辑类似于特斯拉FSD的“端到端”模式,通过视觉输入直接产生操作输出,而非依赖游戏后台数据[1] - 模型通过观看YouTube和Twitch上总计4万小时带有手柄画面叠加的游戏实况视频进行学习,将游戏画面与手柄按键动作进行对应[3][7][10] - 该模型学习了超过1000款不同的游戏,旨在成为一个“通才”,而非针对单一游戏的“专才”[11] 模型性能与通用性 - 当被置于一款从未见过的新游戏中时,NitroGen的表现比从零训练的模型强了52%[14] - 模型能够处理多种游戏类型,包括动作RPG、平台跳跃和Roguelike等,并展现出快速上手的“游戏直觉”[11][14] 在游戏领域的应用与影响 - 结合类似GPT-5.2-Thinking等大模型的强大推理能力,NitroGen等技术预示着AI可能终结人类撰写游戏攻略和软件文档的时代[18] - 未来AI不仅能玩游戏,还能自动记录、复盘并生成“白金攻略”,甚至自动修复游戏Bug[18] - 视频游戏已从AI测试基准演变为物理智能的训练场,是机器人技术跨越“莫拉维克悖论”的关键转折点[25][26] 向机器人技术与具身智能的延伸 - NitroGen是基于英伟达的GR00T机器人基础模型构建的,标志着公司将其在虚拟世界的技术积累向物理机器人领域延伸的野心[20] - 该研究为解决具身智能的数据匮乏瓶颈提供了新路径:利用互联网规模的游戏视频数据(4万小时,覆盖1000多种游戏)来训练通用的运动控制策略,这被类比为机器人学习的“ImageNet时刻”[27][36][39][40] - 游戏世界中的“感知-决策-行动”闭环与物理机器人完全同构,是高效的“练兵场”,能为机器人打造应对混乱现实的“通用大脑”[22][29] 通用智能体的分层架构愿景 - 未来的通用智能体可能采用分层架构:顶层(大脑)由类似GPT-5.2的推理模型负责长程规划和逻辑理解;中层(小脑)由类似NitroGen的通用策略模型负责将指令翻译为具体运动轨迹;底层(脊髓)由基于GR00T的控制器负责高频的全身控制和平衡维持[43][44][45] - 通过“在游戏中学会控制,在仿真中学会物理,在现实中学会适应”的路径,实现通用智能体的发展[43]
震撼,英伟达新模型能打遍几乎所有游戏
机器之心· 2025-12-21 12:21
文章核心观点 - 英伟达发布并开源了名为NitroGen的通用游戏AI基础模型,该模型能够通过观看游戏视频帧直接输出真实手柄操作信号,具备跨1000余款不同类型游戏的零样本游玩能力,并可通过少量微调快速适应新游戏,其技术架构源于机器人模型,旨在作为构建通用具身智能体的重要基础[3][4][5][6][8][12][35] 模型概述与核心组件 - NitroGen是一个完整的通用大模型,以游戏视频帧为输入,输出真实手柄操作信号,天然适配所有支持手柄的游戏[4][8] - 模型设计融合三项关键要素:互联网规模的视频-动作数据集、多游戏基准评测环境、统一的视觉-动作策略模型[13] - 模型由三个核心组件构成:1) 多游戏基础智能体(通用视觉-动作模型);2) 通用模拟器(统一游戏交互接口);3) 互联网规模数据集(目前最大、最丰富的开源游戏数据集之一)[15][16][17] 数据集详情 - 数据集来源于40,000小时的公开游戏视频,覆盖1,000余款游戏,并自动提取生成了对应的动作标签[17][24] - 数据覆盖范围广泛:846款游戏拥有超过1小时的数据,91款游戏拥有超过100小时的数据,15款游戏累计数据量超过1,000小时[25] - 从游戏类型分布看,动作RPG占比最高,占总时长的34.9%;平台跳跃类占18.4%;动作冒险类占9.2%[26] - 数据通过从带有“手柄操作叠加显示”的游戏视频中,使用分割模型自动检测并提取手柄显示区域,转换为“专家级动作标签”来构建[18][19][21] 模型性能与实验结果 - 实验表明,NitroGen在3D动作游戏战斗、2D平台跳跃高精度操作、程序生成世界探索等多种场景中均表现出较强能力[28] - 使用5亿参数的统一模型在完整数据集上训练,在未进行任何额外微调的情况下,能够在多种视觉风格和游戏类型的游戏中完成非平凡的任务[30] - 模型能有效迁移到新游戏,在相同任务设定下,其任务成功率相比从零开始训练的模型最高可实现52%的相对提升[32] 战略意义与行业影响 - NitroGen被视为构建通用型具身智能体的起点,其能力聚焦于“玩家直觉式运动控制”,目标是打造能适应由无数模拟环境构成的“多元宇宙”中所有可能物理规则的智能体[34][35] - 电子游戏具备完整的世界和交互体系,是实现通用游戏操作的重要模拟环境,掌握此能力是迈向操作机器人进行真实世界交互的关键一步[35] - 英伟达已开源发布该模型的数据集、评测套件及模型权重,以推动通用具身智能体方向的进一步研究[36] - 该技术预示未来机器人学可能成为具身AGI巨大潜在空间中的一个子集,最终或可通过自然语言提示来请求机器人“游戏手柄”[37][38]