Workflow
多阶段训练策略
icon
搜索文档
英伟达开源最新VLA,能否破局L4自动驾驶?
钛媒体APP· 2025-12-02 21:01
英伟达开源VLA模型Alpamayo-R1的核心事件 - 英伟达于12月1日正式开源其最新自动驾驶视觉语言行动模型Alpamayo-R1,该模型能同时处理车辆摄像头画面、文本指令并输出行车决策 [2] - 模型已在GitHub和Hugging Face平台开源,并同步推出Cosmos Cookbook开发资源包 [2] - 这是行业内首个专注自动驾驶领域的开源VLA模型,旨在为L4级自动驾驶落地提供核心技术支撑 [3] Alpamayo-R1模型的技术特点与优势 - 相较于传统黑盒式自动驾驶算法,该模型主打"可解释性",能够给出自身决策的理由,有助于安全验证、法规审查与事故责任判定 [3] - 模型基于全新的"因果链"数据集训练,不仅标注车辆"做了什么",更注明"为什么这样做",使模型学会基于因果关系的推理 [4] - 通过引入语言模态作为中间层,将视觉感知转化为可解释的逻辑链,具备处理长尾场景和复杂突发状况的潜力 [4] - 采用模块化VLA架构,将视觉语言模型Cosmos-Reason与基于扩散模型的轨迹解码器结合,可实时生成动态可行的规划方案 [5] - 模型在复杂场景下的轨迹规划性能提升12%,近距离碰撞率减少25%,推理质量提升45%,推理-动作一致性增强37% [5] - 模型参数从0.5B扩展至7B过程中性能持续改善,车载道路测试延迟为99毫秒,验证了城市场景部署的可行性 [5] 英伟达的自动驾驶战略与生态构建 - 英伟达试图通过开放核心技术,降低自动驾驶开发门槛,加速软件栈标准化,打破原来Robotaxi昂贵的"全栈自研"模式 [3] - 公司正在构建"安卓式"的Robotaxi生态,计划2027年起部署10万辆Robotaxi [7] - 已宣布与Uber、奔驰、Stellantis、Lucid等公司合作,共同打造"全球最大L4级自动驾驶车队" [7] - 截至2025年10月,英伟达云端平台已积累超过500万小时的真实道路数据 [7] - Hyperion 10自动驾驶平台实现了"从仿真到实车"的闭环,车企采用英伟达整套方案可快速实现L4级能力上车 [6][7] VLA技术对行业的影响与竞争格局 - VLA被视为下一代技术竞争的关键变量,行业竞争正从功能实现转向高阶智驾能力比拼 [2] - 国内理想汽车、小鹏汽车、长城汽车、元戎启行等已实现VLA量产落地 [3] - 英伟达的开放生态有望推动玩家共享匿名化特征数据,带动整个生态技术迭代速度从线性转变为指数级提升 [8] - 元戎启行CEO预测VLA可能带来"断层式的领先",成为下一代竞争的关键变量 [9] 技术挑战与行业现状 - 目前要满足车规级时延,模型需要在RTX A6000 ProBlackwell级别的卡上运行,该卡INT8算力达4000T,是Thor的6倍左右 [10] - 英伟达开源是为了更好地销售硬件和全栈解决方案,模型与英伟达芯片及开发平台深度绑定 [10] - 有业内人士指出,此次开源对自动驾驶领域入门选手有价值,但对专业公司意义不大 [3] - VLA是否为最佳自动驾驶技术仍在实践过程中,模型工具链基于英伟达平台对开发者是一种限制 [11]
英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子
机器之心· 2025-12-02 08:17
文章核心观点 - NVIDIA Research推出的Alpamayo-R1是一种带有推理能力的视觉-语言-行动模型,旨在解决自动驾驶系统在“长尾场景”中缺乏因果推理能力的关键瓶颈 [1] - 该模型通过引入因果链数据集、扩散式轨迹解码器和多阶段训练策略,使车辆不仅能执行指令,还能在决策前推理出因果关系,实现从“黑箱”到“白箱”的转变 [1][18][19] - 模型在实验中表现出显著性能提升,特别是在规划精度、安全性和推理-行动一致性方面,更接近“真正会判断的司机” [6] 自动驾驶行业当前瓶颈 - 当前自动驾驶模型的瓶颈在于“看”得见但“想”不明白,传统端到端系统常在“长尾场景”中出错,例如迎面来车违规左转、行人突然闯入、临时施工等极少数但易发生事故的场景 [1] Alpamayo-R1模型核心创新 - 引入Chain of Causation因果链数据集,为驾驶数据标注“为什么这样做”的推理信息,例如“减速并左变道,是因为前方有助动车等红灯,且左侧车道空闲” [2][3] - 采用Diffusion-based Trajectory Decoder扩散式轨迹解码器,在实时约束下生成连续、动态可行的驾驶轨迹,结合语言推理输出与物理约束 [5] - 实施Multi-Stage Training多阶段训练策略,包括大规模驾驶数据模态注入、因果链数据监督微调和强化学习优化,使模型在开放及长尾场景中更稳健 [6][13] 模型性能表现 - 规划精度提升12%,越界率降低35%,近碰率降低25%,推理-行动一致性提升37% [10] - 具备99毫秒的端到端实时延迟性能 [10] 技术实现细节 - 输入由多相机、多时序观测帧组成,可选配高层语言输入,所有输入被统一编码成多模态token序列,按时序和传感器顺序排列,送入主干模型Cosmos-Reason进行推理与预测 [7][8] - 输出包含三类token:推理链、中层动作与未来轨迹预测 [8] - 采用“人机协同标注”机制生成CoC数据集,人工标注关键帧和核心因果因素,通过GPT-5等大模型自动生成初版推理后由人类审查,并通过四项规则严格把关质量 [10] 训练流程 - 第一阶段为监督微调,基于在370万条VQA数据上预训练的Cosmos-Reason模型进行微调,其中包括2.47万条驾驶设计视频样本和额外的10万条驾驶样本用于领域自适应 [15] - 第二阶段为因果链监督,引入CoC数据集显式监督模型的推理输出,使其能回答“为什么要减速”等问题,通过人工和教师模型生成高质量推理样本 [16] - 第三阶段为强化学习后训练优化,通过多维度奖励机制提升推理精准性、推理-行动一致性、轨迹平滑性及闭环控制稳定性 [17] 行业未来展望 - Alpamayo-R1的设计理念是自动驾驶从“黑箱”到“白箱”的转折点,使AI的“推理链”与物理世界的“行动链”形成真正闭环,为实现可解释的L4自动驾驶奠定基础 [18][20] - 当车辆能解释自己的每一个决策时,才能确保更加安全,信任与普及才会得以实现 [21]