NitroGen
搜索文档
CES 2026超前瞻:空间智能来势汹汹!从实验室奢侈品到消费级刚需,如何重塑 AI 具身时代?
机器之心· 2026-01-05 14:09
文章核心观点 - 行业共识认为,当前人工智能(AI)在逻辑和语言能力上取得突破,但缺乏对三维物理世界的理解和交互能力,即“空间智能”的缺失,这限制了具身智能(Embodied AI)的发展[1] - 空间智能被视为AI发展的下一个关键十年,是一场让AI获得理解、推理并与物理世界交互底层能力的“认知革命”,其发展将推动AI从被动的信息处理器转变为能在真实世界中主动行动的智能体[6][8][9] - 行业正通过“世界生成”和“空间决策”两大技术路径攻克空间智能,并致力于通过算法创新(如纯视觉方案)将高昂的空间感知成本降至消费级水平,这被视为具身智能迎来大规模普及的“拐点”或“iPhone时刻”[13][23][24][34][38] 感知困局与空间智能的定义 - 当前AI存在“语言强、手脚笨”的困境:参数规模突破万亿的大语言模型(LLM)逻辑推理能力逼近人类,但智能设备在复杂物理环境中仍难以完成简单避障,多数AI眼镜仍停留在“2D提词器”阶段[4] - 空间智能的缺失是核心痛点,其被定义为AI理解物体深度、距离、遮挡、重力及物理关系的能力,是连接感知与行动、驱动智能涌现的核心[5][6][8] - 行业竞争焦点正从“参数竞赛”转向“感知革命”,目标是让AI以更低成本实现更快的空间直觉[6] 空间智能的技术路径分野 - **路径一:世界生成**:致力于构建高保真、可交互的虚拟3D环境,为AI训练和创意产业提供“数字孪生”基础[14][16] - META的SAM 3 (3D)项目旨在为物理世界万物进行3D标记与重建,建立庞大的视觉词典[16][28] - 李飞飞领衔的World Labs的“Marble”模型能够理解并生成可交互的3D场景[16] - 中国的GIGA专注于利用神经渲染技术从2D图像或视频中高效生成高质量3D场景资产[16] - **路径二:空间决策**:专注于让机器基于实时视觉输入,在毫秒间理解空间关系并做出安全、精准的决策[14][18] - NVIDIA的NitroGen项目建立视觉到动作的端到端模型,减少传统规划延迟[19][28] - 小鹏汽车的城市级智能驾驶系统是在复杂开放世界中完成持续空间决策的实践[19] - 银河通用(Galbot)的VLA模型试图耦合视觉感知、语言指令与动作生成,实现“看到即思考,思考即行动”[19] - 联汇科技(OmAI)侧重于通过普通RGB摄像头和有限端侧算力实现高精度3D开放空间感知[19] - 两条路径构成互补闭环:“世界生成”为“空间决策”提供训练环境,“空间决策”的真实数据反哺“世界生成”模型[21] 成本拐点与产业化突破 - 行业拐点在于将高昂的空间感知能力变为可大规模普及的基础服务,核心是成本下降[23][25] - 传统方案依赖昂贵硬件:多摄像头BEV架构或数千美元的激光雷达,将具身智能禁锢在高端场景[26][31] - **纯视觉路径正在打破成本魔咒**:通过算法重构,用普通RGB摄像头和端侧模型实现高精度3D感知,大幅降低成本[26][27] - 案例:韶音(Shokz)与联汇科技(OmAI)联合推出的AI眼镜,仅通过普通RGB摄像头和端侧OmModel模型实现实时3D开放空间感知,将成本降至单目摄像头水平[27] - 算法重构带来的影响包括:使AI眼镜、家用机器人进入消费级价格区间;为盲人导航等场景提供端侧实时处理能力保障安全;完成从“看到物体”到“理解空间”的关键进化[32] 投资视角与行业前景 - 投资焦点从参数规模转向空间智能的落地效率,关注AI在物理世界中实现“仿生灵动”的能力[34][35] - **成本革命驱动市场扩张**:当3D空间感知成本从数万元(激光雷达方案)降至数百元(纯视觉算法方案),市场容量将指数级扩张,推动扫地机器人、低空无人机、消费级具身机器人等大规模落地[34] - **数据入口价值**:能在复杂场景中实现“视觉闭环”的企业,将掌握物理世界最真实的数据流,构建深厚护城河[34] - 未来3-5年,具备端侧、实时、高精度3D空间感知与决策能力的企业,有望成为具身智能生态中不可或缺的“视觉芯片级”供应商,行业地位堪比PC时代的Intel或移动时代的ARM[34] 行业影响与未来展望 - **消费端**:百元级3D感知方案将催生智能穿戴、智能家居新品类爆发,让AI设备成为像手机一样的生活必需品[38] - **工业端**:低成本空间智能将推动智能制造、物流仓储的效率革命,为企业降本增效提供核心动力[38] - **社会价值**:将为残障人士、老年人等群体带来更便捷的生活方式,加速AI普惠[38] - 未来三年,AI将以其在物理世界中的“仿生灵动”与“自主”重新定义智能边界,行业正在见证从“语言智能”向“空间智能”的范式跃进[38]
游戏AI来了,英伟达新模型看直播学会所有游戏,GPT-5.2秒杀塞尔达
36氪· 2025-12-25 15:06
英伟达NitroGen模型的技术突破 - 公司发布名为NitroGen的新模型,其核心逻辑类似于特斯拉FSD的“端到端”模式,通过视觉输入直接产生操作输出,而非依赖游戏后台数据[1] - 模型通过观看YouTube和Twitch上总计4万小时带有手柄画面叠加的游戏实况视频进行学习,将游戏画面与手柄按键动作进行对应[3][7][10] - 该模型学习了超过1000款不同的游戏,旨在成为一个“通才”,而非针对单一游戏的“专才”[11] 模型性能与通用性 - 当被置于一款从未见过的新游戏中时,NitroGen的表现比从零训练的模型强了52%[14] - 模型能够处理多种游戏类型,包括动作RPG、平台跳跃和Roguelike等,并展现出快速上手的“游戏直觉”[11][14] 在游戏领域的应用与影响 - 结合类似GPT-5.2-Thinking等大模型的强大推理能力,NitroGen等技术预示着AI可能终结人类撰写游戏攻略和软件文档的时代[18] - 未来AI不仅能玩游戏,还能自动记录、复盘并生成“白金攻略”,甚至自动修复游戏Bug[18] - 视频游戏已从AI测试基准演变为物理智能的训练场,是机器人技术跨越“莫拉维克悖论”的关键转折点[25][26] 向机器人技术与具身智能的延伸 - NitroGen是基于英伟达的GR00T机器人基础模型构建的,标志着公司将其在虚拟世界的技术积累向物理机器人领域延伸的野心[20] - 该研究为解决具身智能的数据匮乏瓶颈提供了新路径:利用互联网规模的游戏视频数据(4万小时,覆盖1000多种游戏)来训练通用的运动控制策略,这被类比为机器人学习的“ImageNet时刻”[27][36][39][40] - 游戏世界中的“感知-决策-行动”闭环与物理机器人完全同构,是高效的“练兵场”,能为机器人打造应对混乱现实的“通用大脑”[22][29] 通用智能体的分层架构愿景 - 未来的通用智能体可能采用分层架构:顶层(大脑)由类似GPT-5.2的推理模型负责长程规划和逻辑理解;中层(小脑)由类似NitroGen的通用策略模型负责将指令翻译为具体运动轨迹;底层(脊髓)由基于GR00T的控制器负责高频的全身控制和平衡维持[43][44][45] - 通过“在游戏中学会控制,在仿真中学会物理,在现实中学会适应”的路径,实现通用智能体的发展[43]
震撼,英伟达新模型能打遍几乎所有游戏
机器之心· 2025-12-21 12:21
文章核心观点 - 英伟达发布并开源了名为NitroGen的通用游戏AI基础模型,该模型能够通过观看游戏视频帧直接输出真实手柄操作信号,具备跨1000余款不同类型游戏的零样本游玩能力,并可通过少量微调快速适应新游戏,其技术架构源于机器人模型,旨在作为构建通用具身智能体的重要基础[3][4][5][6][8][12][35] 模型概述与核心组件 - NitroGen是一个完整的通用大模型,以游戏视频帧为输入,输出真实手柄操作信号,天然适配所有支持手柄的游戏[4][8] - 模型设计融合三项关键要素:互联网规模的视频-动作数据集、多游戏基准评测环境、统一的视觉-动作策略模型[13] - 模型由三个核心组件构成:1) 多游戏基础智能体(通用视觉-动作模型);2) 通用模拟器(统一游戏交互接口);3) 互联网规模数据集(目前最大、最丰富的开源游戏数据集之一)[15][16][17] 数据集详情 - 数据集来源于40,000小时的公开游戏视频,覆盖1,000余款游戏,并自动提取生成了对应的动作标签[17][24] - 数据覆盖范围广泛:846款游戏拥有超过1小时的数据,91款游戏拥有超过100小时的数据,15款游戏累计数据量超过1,000小时[25] - 从游戏类型分布看,动作RPG占比最高,占总时长的34.9%;平台跳跃类占18.4%;动作冒险类占9.2%[26] - 数据通过从带有“手柄操作叠加显示”的游戏视频中,使用分割模型自动检测并提取手柄显示区域,转换为“专家级动作标签”来构建[18][19][21] 模型性能与实验结果 - 实验表明,NitroGen在3D动作游戏战斗、2D平台跳跃高精度操作、程序生成世界探索等多种场景中均表现出较强能力[28] - 使用5亿参数的统一模型在完整数据集上训练,在未进行任何额外微调的情况下,能够在多种视觉风格和游戏类型的游戏中完成非平凡的任务[30] - 模型能有效迁移到新游戏,在相同任务设定下,其任务成功率相比从零开始训练的模型最高可实现52%的相对提升[32] 战略意义与行业影响 - NitroGen被视为构建通用型具身智能体的起点,其能力聚焦于“玩家直觉式运动控制”,目标是打造能适应由无数模拟环境构成的“多元宇宙”中所有可能物理规则的智能体[34][35] - 电子游戏具备完整的世界和交互体系,是实现通用游戏操作的重要模拟环境,掌握此能力是迈向操作机器人进行真实世界交互的关键一步[35] - 英伟达已开源发布该模型的数据集、评测套件及模型权重,以推动通用具身智能体方向的进一步研究[36] - 该技术预示未来机器人学可能成为具身AGI巨大潜在空间中的一个子集,最终或可通过自然语言提示来请求机器人“游戏手柄”[37][38]