视觉 - 语言 - 动作（VLA）

搜索文档

自动驾驶之心· 2025-09-14 00:04

端到端自动驾驶定义 - 学习单一模型直接将原始传感器输入映射到驾驶场景并输出控制指令取代传统模块化管道 [3] - 训练流程包括监督学习模仿学习或强化学习通过大量标注数据或奖励设计实现 [3] - 涵盖当前VLA和世界模型等技术方向属于自动驾驶算法最广概念 [6] 技术发展路线 - 从20多年前黑白图像输入起步经历条件模仿学习泛化可解释性网络等阶段 [8] - 当前处于1.5代端到端自动驾驶阶段基于基础模型解决长尾问题 [10] - 分化出两大分支：世界模型分支（扩散管道/视频生成模型）和VLA分支（大型语言模型应用） [11] 世界模型分支技术 - 包含Drive Dreamer Cosmos Predict One和导航世界模型等具体应用 [11] - Gaia 2作为视频生成模型利用多视图图像预测不同类型视频提升驾驶安全性与自动化 [11] - 通过多模态动作预测实现真实感和多样性生成 [11] VLA分支技术 - Java LM采用"草图维基"方式增强驾驶场景理解 [11] - Lingo Tool和Job VRM利用基础模型提升准确性但存在延迟较高问题 [11] - 通过大小模型协同工作预测多数情况优化系统性能 [11] 部署挑战与数据需求 - 需要处理大量生产问题和工程工作进入第二代发展阶段 [14] - 特斯拉FSD追踪器显示MPI指标年度增长数据量增加使模型持续优化 [18] - 剩余20%长尾问题需海量数据危险案例收集成本昂贵且可能危及生命 [18] 世界引擎解决方案 - 通过极端情况生成和安全关键场景构建大幅降低数据收集成本 [21] - 包含数据引擎和算法引擎生成大量训练场景并改进端到端算法 [24] - 通过环境交互与行为建模实现从失败中学习并优化规划器 [21] 技术路径对比 - 世界模型概念覆盖范围更广但实施存在不确定性 [25] - VLA被视为更切合实际的技术路径世界模型为终极目标 [25] - 需警惕概念包装与实际技术内容不符的情况 [25]

端到端自动驾驶

全球首个自动驾驶VLA综述重磅发布：VLA自驾模型全面拆解~

具身智能之心· 2025-07-03 16:22

自动驾驶开发者社区，关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案等，坚持为领域输出最前沿的技术方向！点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线今天自动驾驶之心为大家分享麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊的研究团队最新的工作！面向自动驾驶的视觉-语言-动作模型综述！如果您有相关工作需要分享，请在文末联系我们！以下文章来源于自动驾驶之心，作者Sicong Jiang等自动驾驶之心 . 自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球当视觉（Vision）、语言（Language）和行动（Action）三大能力在一个模型中融合，自动驾驶的未来将走向何方？近日，来自麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊的研究团队联合发布了全球首篇针对自动驾驶领域的视觉-语言-行动（Vision-Language-Action, VLA）模型的全面综述。这篇题为《A Survey on Vision-Languag ...