世界模型 - 财报，业绩电话会，研报，新闻

世界模型

搜索文档

自动驾驶之心· 2025-12-24 11:29

英伟达的战略定位与市场表现 - 公司已成为人工智能基础设施领域的首要巨头，其市值在2025年10月底达到5万亿美元，是3年前的11倍[2] - 公司已完成从图形芯片到人工智能巨头的演进，关键节点包括1999年推出GeForce 256、2006年CUDA问世、2012年支持AlexNet、2020年开始发布高端计算GPU以及2021年开始发布端侧芯片[2] - 公司的战略野心已超越硬件公司范畴，在2025年于自动驾驶、具身智能、大模型和世界模型等最热门的人工智能赛道上产出了多篇重量级工作[2] 世界模型与仿真平台 (Cosmos系列) - **Cosmos平台**：作为世界基础模型平台，旨在为物理人工智能提供可高效微调的世界仿真基础，其核心贡献包括构建了大规模视频数据管理流程、提出高效视频标记器、开发基于扩散与自回归的可扩展世界基础模型架构，并展示了模型在多种物理人工智能任务中的后训练适应性[39] - **Cosmos-Predict2.5**：新一代物理人工智能视频世界基础模型，与其控制网络变体Cosmos-Transfer2.5基于流匹配架构，统一了文本、图像、视频到世界的生成能力，在视频质量、指令对齐与长视频生成一致性上实现显著提升[17] - **Cosmos-Transfer1**：一个基于扩散模型的多模态可控世界生成框架，通过自适应空间-时间控制权重机制，能根据不同模态输入生成高质量的世界仿真视频，特别适用于机器人仿真到现实迁移与自动驾驶数据增强[37] - **Cosmos-Reason1**：旨在赋予多模态大语言模型“物理常识”与“具身推理”能力，通过定义层次化的物理常识与具身推理本体，并采用“监督微调+强化学习”的两阶段训练范式，使模型能基于视频输入进行长链条思维推理[32] 具身智能与机器人 (GR00T & Isaac Lab) - **GR00T N1**：一个面向通用人形机器人的开放式视觉-语言-动作基础模型，采用双系统架构，并通过构建包含真实机器人数据、仿真轨迹、人类视频与神经生成视频的“数据金字塔”进行大规模预训练，实现了跨机器人平台的强泛化能力[35] - **Isaac Lab**：一个GPU加速的机器人学习仿真框架，构建了集高保真物理、照片级渲染与模块化环境设计于一体的GPU原生仿真平台，旨在系统性解决机器人学习中的数据稀缺、仿真到现实鸿沟及大规模多模态策略训练等核心挑战[6] 多模态大语言模型 (Nemotron系列) - **Nemotron-H系列**：采用创新的混合Mamba-Transformer架构，用计算和内存需求恒定的Mamba层替代绝大部分自注意力层，在保证与顶尖开源Transformer模型相当或更优精度的前提下，实现了高达3倍的推理速度提升[27][28] - **Nemotron Nano 2**：一款面向推理任务的高效混合架构语言模型，通过结合Mamba-2层与自注意力层，在保持高精度的同时，实现了最高达6倍的推理吞吐量提升，并支持128k长上下文推理[26] - **Nemotron Nano V2 VL**：一个高效的120亿参数视觉语言模型，通过混合Mamba-Transformer架构、多阶段训练策略和高效推理优化，在文档理解、长视频推理等多模态任务中实现了领先性能[12] 自动驾驶 (Alpamayo-R1) - **Alpamayo-R1**：一种融合因果推理与轨迹规划的视觉-语言-动作模型，旨在解决端到端自动驾驶在长尾安全关键场景中的性能瓶颈，通过结构化因果链数据集、模块化架构与强化学习后训练，显著提升了规划安全性与决策可解释性[13][16] - 在闭环仿真与实车测试中，相比仅预测轨迹的基线模型，Alpamayo-R1在挑战性场景中规划准确率提升最高达12%，脱轨率降低35%，近距离接触率降低25%，推理质量与推理-动作一致性分别提升45%与37%[16] 底层技术与训练优化 - **NVFP4训练方法**：针对大型语言模型预训练的挑战，提出并验证了一种基于新型4位浮点格式NVFP4的高效训练方法，通过混合精度、随机哈达玛变换等关键技术，成功在120亿参数模型上进行了长达10万亿token的稳定训练，首次证实了4位精度在万亿token规模预训练中的可行性[19] - 在120亿参数模型的预训练中，使用NVFP4格式的验证损失与FP8基线全程紧密吻合，相对误差小于1.5%[19] - 对比实验证明，NVFP4在达到相同训练损失时，所需的训练token数比MXFP4少约36%[19] 数字人与生成式人工智能应用 - **Audio2Face-3D**：一个基于深度学习的端到端音频驱动三维面部动画系统，能够从单一语音输入实时生成高保真、口型同步且带情感表达的全脸动画，并支持多身份适配与流式推理[21]