Workflow
自动驾驶范式演进
icon
搜索文档
不及预期的diffusion多模态轨迹输出,能否胜任自动驾驶VLA的角色?
自动驾驶之心· 2025-09-08 07:34
自动驾驶范式演进 - 行业主流从端到端转向VLA(Vision-Language-Action)和世界模型-行为(World Action)两大流派,理想和小鹏完成VLA范式转变,华为和蔚来聚焦直接建模视觉信息到Action输出 [2][3] - 端到端网络通过原始传感器输入直接映射控制量,省去传统感知-预测-规划-控制级联链路,采用高并行低耦合设计,通过数据采集→模型训练→仿真/实车验证闭环实现 [4][5] - 特斯拉提出"日更模型"解决迭代痛点:每日筛选bad case转为训练样本,轻量级微调上一版本模型,实现7×24持续进化,核心挑战是保持既有能力同时无缝注入新知识 [9] 技术融合与创新 - 2023年端到端+VLM(Vision-Language Model)双系统方案兴起,受LLM Scaling Law启示,参数量与数据量放大带来zero-shot/few-shot泛化能力 [11] - VLM早期解决特殊语义识别(如OCR识别公交车道文字、潮汐车道箭头),EMMA架构引入链式推理,用自然语言思考过程辅助控车,推动VLA发展 [12] - VLA+Diffusion融合DiffusionDrive与GoalFlow思想,VLA显式输出Driving Command作为Diffusion初始噪声和条件,最终生成安全平滑车辆轨迹 [14][15][16] 当前挑战与问题 - Diffusion多模态轨迹输出不及预期,开放道路环境数据稀疏且分布不均衡,可控性远逊预期,难以覆盖万景万态 [6][18] - VLA和Diffusion双系统存在脑裂问题,两个大脑学习人驾轨迹可能产生矛盾,虽联合训练但仍存在VLA错误时Diffusion自行弥补导致分歧 [18] - 生成加打分范式对生成器效率要求高,单模态轨迹质量不佳,有限计算资源难以生成覆盖全场景的安全合理轨迹 [18] - 语言模态(L)价值未定,可能产生不可接受幻觉,LA对齐挑战大,需将抽象语言精准映射到三维空间关系 [18] 未来发展方向 - 需要能够scaling的系统方案,双系统不适合scaling,应充分发挥数据优势触发模型scaling能力 [22] - 强化学习需加强基础模型能力,连续空间内自由度太高难调优,轨迹模型建模形式需重新设计 [22] - 生成+打分范式需让轨迹自我反思,DiffusionPlanner用奖励场函数二次优化只是起点,需迭代更多反思手段提升单条轨迹质量 [22]