Cosmos Cookbook
搜索文档
NVIDIA开源 Alpamayo-R1:让车真正“理解”驾驶
36氪· 2025-12-03 12:27
核心观点 - NVIDIA在NeurIPS 2025大会上发布了全球首个专为自动驾驶研究设计的开源推理型视觉语言动作模型Alpamayo-R1,标志着自动驾驶系统正从“感知驱动”迈向“语义理解与常识推理”新阶段 [1] 模型架构与技术特点 - Alpamayo-R1基于Cosmos-Reason模型家族构建,引入“思维链”机制,能将复杂驾驶任务分解为可解释的推理步骤 [4] - 模型的核心在于让车辆不仅能“看见”,还能“理解为什么这么做”,通过多步推理生成安全决策以应对复杂场景 [6] - 模型旨在提升在运行设计域边界情况下的鲁棒性,尤其适用于L4级自动驾驶所面临的长尾挑战 [4] 开源策略与工具链 - NVIDIA此次开源了Alpamayo-R1的模型权重,并同步发布了完整的自动驾驶AI开发工具包Cosmos Cookbook [7] - 开源工具包涵盖高质量数据构建规范、基于DRIVE Sim与Omniverse的合成数据生成流水线、轻量化部署方案以及安全评估基准 [7] - 模型已在GitHub和Hugging Face上线,允许学术界与产业界自由使用、微调与部署 [7] 多车协同与群体智能 - NVIDIA联合卡内基梅隆大学展示了V2V-GoT系统,这是全球首个将图思维推理应用于多车协作自动驾驶的框架 [9] - 在盲区场景中,该系统通过V2X通信共享信息,利用多模态大语言模型作为“协调中枢”为每辆车生成协同安全策略 [9] - 实验表明,该系统可将交叉路口碰撞率从传统方法的2.85%降至1.83%,并能准确预测周围车辆未来3秒内的运动轨迹 [9] 合成数据与训练能力 - 支撑Alpamayo-R1高性能表现的是NVIDIA强大的合成数据生成能力,其Cosmos世界基础模型经过20,000小时真实驾驶视频的后训练 [11] - 合成数据可高保真生成夜间、暴雨、浓雾、强眩光等挑战性场景,缓解真实世界长尾数据稀缺问题,并支持闭环对抗训练 [11] 行业对比与发展路径 - 国内蘑菇车联的MogoMind大模型代表了一条“中国路径”,通过将物理世界实时动态数据纳入训练体系,构建智能体与物理世界实时交互的AI网络 [10] - 该方案已在多个城市实现部署,旨在提升车辆在城市场景中的适应能力、泛化能力以及安全性与可靠性 [10] 战略意义与行业影响 - Alpamayo-R1的发布是NVIDIA“物理AI”战略的重要落地,旨在构建能理解物理规律、社会规范与因果逻辑的具身智能体 [12] - 尽管距离大规模量产仍有工程化挑战,但开源策略将加速全球研发进程,降低L4级自动驾驶的研发门槛 [5][13]
英伟达开源最新VLA,能否破局L4自动驾驶?
钛媒体APP· 2025-12-02 21:01
英伟达开源VLA模型Alpamayo-R1的核心事件 - 英伟达于12月1日正式开源其最新自动驾驶视觉语言行动模型Alpamayo-R1,该模型能同时处理车辆摄像头画面、文本指令并输出行车决策 [2] - 模型已在GitHub和Hugging Face平台开源,并同步推出Cosmos Cookbook开发资源包 [2] - 这是行业内首个专注自动驾驶领域的开源VLA模型,旨在为L4级自动驾驶落地提供核心技术支撑 [3] Alpamayo-R1模型的技术特点与优势 - 相较于传统黑盒式自动驾驶算法,该模型主打"可解释性",能够给出自身决策的理由,有助于安全验证、法规审查与事故责任判定 [3] - 模型基于全新的"因果链"数据集训练,不仅标注车辆"做了什么",更注明"为什么这样做",使模型学会基于因果关系的推理 [4] - 通过引入语言模态作为中间层,将视觉感知转化为可解释的逻辑链,具备处理长尾场景和复杂突发状况的潜力 [4] - 采用模块化VLA架构,将视觉语言模型Cosmos-Reason与基于扩散模型的轨迹解码器结合,可实时生成动态可行的规划方案 [5] - 模型在复杂场景下的轨迹规划性能提升12%,近距离碰撞率减少25%,推理质量提升45%,推理-动作一致性增强37% [5] - 模型参数从0.5B扩展至7B过程中性能持续改善,车载道路测试延迟为99毫秒,验证了城市场景部署的可行性 [5] 英伟达的自动驾驶战略与生态构建 - 英伟达试图通过开放核心技术,降低自动驾驶开发门槛,加速软件栈标准化,打破原来Robotaxi昂贵的"全栈自研"模式 [3] - 公司正在构建"安卓式"的Robotaxi生态,计划2027年起部署10万辆Robotaxi [7] - 已宣布与Uber、奔驰、Stellantis、Lucid等公司合作,共同打造"全球最大L4级自动驾驶车队" [7] - 截至2025年10月,英伟达云端平台已积累超过500万小时的真实道路数据 [7] - Hyperion 10自动驾驶平台实现了"从仿真到实车"的闭环,车企采用英伟达整套方案可快速实现L4级能力上车 [6][7] VLA技术对行业的影响与竞争格局 - VLA被视为下一代技术竞争的关键变量,行业竞争正从功能实现转向高阶智驾能力比拼 [2] - 国内理想汽车、小鹏汽车、长城汽车、元戎启行等已实现VLA量产落地 [3] - 英伟达的开放生态有望推动玩家共享匿名化特征数据,带动整个生态技术迭代速度从线性转变为指数级提升 [8] - 元戎启行CEO预测VLA可能带来"断层式的领先",成为下一代竞争的关键变量 [9] 技术挑战与行业现状 - 目前要满足车规级时延,模型需要在RTX A6000 ProBlackwell级别的卡上运行,该卡INT8算力达4000T,是Thor的6倍左右 [10] - 英伟达开源是为了更好地销售硬件和全栈解决方案,模型与英伟达芯片及开发平台深度绑定 [10] - 有业内人士指出,此次开源对自动驾驶领域入门选手有价值,但对专业公司意义不大 [3] - VLA是否为最佳自动驾驶技术仍在实践过程中,模型工具链基于英伟达平台对开发者是一种限制 [11]
Nvidia announces new open AI models and tools for autonomous driving research
TechCrunch· 2025-12-02 05:00
英伟达发布物理AI新基础设施与模型 - 公司宣布了新的基础设施和AI模型 旨在构建物理AI的骨干技术 物理AI包括能够感知并与现实世界交互的机器人和自动驾驶汽车 [1] - 这些发布表明公司正全力推进物理AI 将其作为其先进AI GPU的新增长途径 [7] 自动驾驶视觉语言动作模型Alpamayo-R1 - 公司在NeurIPS AI会议上发布了Alpamayo-R1 这是一个用于自动驾驶研究的开放式推理视觉语言模型 [2] - 公司声称这是首个专注于自动驾驶的视觉语言动作模型 视觉语言模型可以同时处理文本和图像 使车辆能够“看见”周围环境并根据感知做出决策 [2] - 该模型基于公司的Cosmos Reason模型构建 Cosmos Reason是一种在响应前会进行决策推理的模型 [3] - 公司表示 像Alpamayo-R1这样的技术对于寻求实现L4级自动驾驶的公司至关重要 L4级意味着在限定区域和特定条件下实现完全自动驾驶 [3] - 公司希望此类推理模型能为自动驾驶汽车赋予“常识” 使其能像人类一样更好地处理微妙的驾驶决策 [4] - 该新模型已在GitHub和Hugging Face平台上发布 [4] 开发者资源与工具更新 - 公司同步上传了新的分步指南、推理资源和训练后工作流程至GitHub 统称为Cosmos Cookbook 以帮助开发者更好地为其特定用例使用和训练Cosmos模型 [5] - 该指南涵盖了数据整理、合成数据生成和模型评估等内容 [5] 公司战略方向与高层观点 - 公司联合创始人兼首席执行官黄仁勋多次表示 AI的下一波浪潮是物理AI [7] - 公司首席科学家Bill Dally在夏季与TechCrunch的对话中呼应了这一观点 强调了机器人领域的物理AI [7] - Bill Dally表示 公司认为机器人最终将成为世界的重要组成部分 并希望成为所有机器人的“大脑”制造商 为此需要开始开发关键技术 [8]