Nvidia-物理AI的ChatGPT时刻！英伟达“内驱”无人驾驶汽车将至，发布首个链式思维推理VLA模型

英伟达发布开源自动驾驶推理模型Alpamayo - 公司宣布开源其首个推理VLA模型Alpamayo 1，旨在加速安全的自动驾驶技术开发，通过类人思维方式处理复杂驾驶场景，为解决自动驾驶长尾问题提供新路径 [1][14] - 该模型是业界首个为自动驾驶研究社区设计的思维链推理VLA模型，采用100亿参数架构，使用视频输入生成轨迹及推理轨迹，展示每个决策背后的逻辑 [4][17] - 模型并非直接在车内运行，而是作为大规模教师模型，供开发者微调并提取到其完整自动驾驶技术栈中，未来该家族模型将具有更大参数规模、更详细推理能力及商业使用选项 [4][18] 产品发布与商业进展 - 美东时间1月5日周一，英伟达CEO黄仁勋在CES展会上发布了Alpamayo平台，使汽车能够在真实世界中进行“推理”，并宣布首款搭载英伟达技术的汽车将于第一季度在美国上路 [3][16] - 公司免费开放Alpamayo模型，允许潜在用户自行对模型进行重新训练，旨在打造能在意外情况下“思考”解决方案的车辆 [3][16] - 黄仁勋表示“物理AI的ChatGPT时刻已到来”，并称无人出租车是首批受益者，Alpamayo为自动驾驶汽车带来推理能力，是安全、可扩展自动驾驶的基础 [4][18] 技术原理与架构 - 推理VLA是一种统一的AI模型，将视觉感知、语言理解和动作生成与逐步推理集成在一起，在传统VLA模型基础上构建了明确的AI推理功能 [5][18] - 与将视觉输入直接映射到动作的标准VLA模型不同，推理VLA模型将复杂任务分解成可管理的子问题，并以可解释形式阐明其推理过程，从而更准确地解决问题并提供反思 [5][19] - 构建推理VLA模型需要三种基本AI功能：视觉感知处理传感器实时数据、语言理解解释命令与上下文、动作和决策制定计划并安全执行任务同时生成可解释的推理痕迹 [5][19] 配套生态系统 - Alpamayo家族整合了三大基础支柱：开源模型、仿真框架和数据集，构建了一个完整的开放生态系统供任何汽车开发者或研究团队使用 [3][16] - 配套工具包括完全开源的端到端仿真框架AlpaSim，提供真实传感器建模、可配置交通动态和可扩展闭环测试环境，用于高保真自动驾驶开发 [6][20] - 公司提供了面向自动驾驶的大规模开放数据集，包含超过1700小时的驾驶数据，覆盖最广泛的地理位置和条件范围以及罕见复杂的真实世界边缘案例 [6][20] 行业合作与支持 - 开源举措获得了行业广泛支持，包括捷豹路虎、Lucid、Uber以及加州大学伯克利分校DeepDrive产业联盟在内的多家移动出行领军企业和研究机构表示将利用Alpamayo开发基于推理的自动驾驶技术栈，推动L4级自动驾驶部署 [3][16] - 业界领军企业高管评价该技术是推动自动驾驶生态系统创新、应对复杂真实世界场景、加速安全L4级部署以及将自动驾驶推向主流的关键工具 [8][21] 跨行业开源模型发布 - 在同一场合，公司还发布了推动各行业AI发展的多个新开源模型、数据和工具，涵盖用于代理AI的Nemotron家族、用于物理AI的Cosmos平台、用于机器人的Isaac GR00T以及用于生物医学的Clara [9][22] - 提供的开源训练框架和全球最大的开放多模态数据集合之一，包括10万亿语言训练标记、50万个机器人轨迹、45.5万个蛋白质结构和100TB的车辆传感器数据 [11][24] - 博世、Palantir、Salesforce、ServiceNow、日立和Uber等科技业领头羊正在采用并基于英伟达的开源模型技术进行开发 [12][25]