英伟达长达41页的自驾VLA框架!因果链推理,实车可部署

技术框架创新 - 提出Alpamayo-R1(AR1)视觉-语言-动作(VLA)框架,通过融合因果链推理与轨迹规划来解决端到端自动驾驶在长尾场景中的性能瓶颈 [1][2] - 核心创新包括构建因果链数据集、模块化VLA架构以及多阶段训练策略,旨在实现可解释推理与精准控制的衔接 [2][5] - 相较于仅基于轨迹的基准模型,AR1在高难度场景下的规划准确率提升高达12%,在闭环仿真中偏离车道率降低35%,近距离碰撞率降低25% [2] 性能与效率表现 - 模型参数从0.5B扩展至7B时性能持续提升,经强化学习后训练后推理质量提升45%,推理-动作一致性提升37% [2] - 实车道路测试验证模型具备实时性能,延迟为99毫秒,并成功部署于城市路况 [2] - 采用基于流匹配的动作专家轨迹解码器,相较于自回归解码方法,解码速度提升1.16倍,舒适性指标从44.05%提升至97.38% [121] 数据与训练策略 - 通过混合标注流程构建因果链数据集,包含70万个带结构化因果链标注的视频片段,覆盖8万小时驾驶数据 [48][91] - 训练策略包含三阶段:动作模态注入、有监督微调激发推理能力、强化学习后训练优化推理质量与一致性 [61][62] - 数据规模消融实验显示,模型性能随训练数据量增加而持续提升,200万样本模型较10万样本模型性能提升14.0% [113][115] 架构设计与组件优化 - 采用Cosmos-Reason作为VLM主干网络,该网络经过物理智能领域有监督微调,在LingoQA基准上的零样本评估准确率达66.2%,优于GPT-4V等对比模型 [16][117] - 支持多摄像头token化策略,可将每幅图像的token数量减少3.9倍,实现高效视觉编码而不显著牺牲驾驶指标 [22] - 使用基于单轮车动力学模型的轨迹表示方法,通过控制信号生成轨迹,提升闭环性能与物理可行性 [27] 应用与部署前景 - AR1框架为实现L4级自动驾驶提供了一条切实可行的路径,未来计划发布模型及部分因果链数据集 [2] - 在开环评估中,AR1在6秒时域的最小平均位移误差为0.794米,较基准提升4.8%,在高难度场景中提升达12% [96][98] - 闭环评估显示,AR1的AlpaSim评分从0.38提升至0.50,证明基于推理的决策能提升动态场景中的安全性 [100]