Workflow
理想IM智驾系统
icon
搜索文档
以理想汽车为例,探寻自动驾驶的「大脑」进化史 - VLA 架构解析
自动驾驶之心· 2025-12-07 10:05
自动驾驶技术范式演进 - 行业技术范式快速迭代,从前年的BEV(鸟瞰图视角)到去年的“端到端”(End-to-End),再到2025年的技术焦点VLA(视觉-语言-行动)模型 [1][6] - 传统的端到端(VA)模型存在“黑箱”问题,系统能做出正确操作但缺乏可解释性,引发了信任危机 [1] - 视觉语言模型(VLM)能理解和解释场景,但存在“行动鸿沟”,其输出停留在语言层面,无法直接控制车辆 [3] - VLA模型是一场彻底的范式革命,旨在融合计算机视觉、自然语言处理和强化学习,打造一个既能感知、理解又能执行动作的“可解释的大脑” [6][45] “真”端到端架构辨析 - 一个“真”的端到端驾驶系统必须是一个统一的、完整的神经网络,接收原始传感器输入并直接输出可执行的控制信号,且具备“全程可求导”特性 [8][9] - VLM的引入从架构上“打断”了端到端的闭环,因为其输出是文本而非可执行的轨迹,导致学习信号无法从车辆动作反向传播到VLM,无法受益于自动化的数据闭环驱动 [11][12][13][15][16] - 行业早期的“快慢双核”系统(如理想汽车IM智驾系统)是“半”端到端的过渡形态,它将VLM(慢系统)与传统的VA模型(快系统)拼凑,存在异步冲突、架构臃肿和信息损失、优化困难等致命缺陷 [17][18][20][21][22][26] - VLA是“真”端到端,它回归了从传感输入到轨迹输出的统一神经网络形式,实现了“全程可求导”,驾驶错误信号可以无阻碍地反向传播至整个模型,从而支持高效的数据驱动迭代 [23][25][27] VLA解决的核心痛点 - VLA旨在解决“快慢双核”架构暴露的四大核心痛点:长尾场景挑战、语义鸿沟、空间精度不高、时序建模瓶颈 [31] - 自动驾驶的最大挑战是高度语义化、非标准化的“长尾场景”,如复杂的龙门架、可变车道、临时指示等,传统VA模型无法处理 [32][33][34][35][37] - VLM虽然能理解长尾场景,但其输出的文本与车辆控制器所需的精确数值向量之间存在“语义鸿沟”,导致“行动鸿沟” [36][38][39] - 强行让VLM输出轨迹会导致空间精度不高,其基于语言生成的轨迹点易产生偏差,无法满足高精度控制要求 [40] - VLM在处理时序任务时采用叠加多帧图像的方法,会受到Token长度限制(如8K上下文窗口仅能处理约16帧,约2秒历史)和巨大计算开销的制约,无法进行长时程规划 [41][42][43][44] VLA的通用技术栈 - VLA模型通常由三个核心技术组件构成:视觉编码器(V)、语言编码器(L)和动作解码器(A) [46] - 视觉编码器是VLA的“眼睛”,负责将原始图像转换为LLM能理解的视觉令牌,主流方案包括CLIP/SigLIP和DINOv2 [48] - CLIP/SigLIP提供强大的视觉-文本对齐能力,擅长识别和描述图像内容(“是什么”) [49][51][52] - DINOv2通过自监督学习提供强大的空间理解和高级视觉语义能力(“在哪里/怎么样”) [52] - 顶尖方案(如OpenVLA)采用SigLIP + DINOv2双编码器并联,融合两者特征后通过MLP投影器对齐到LLM的令牌嵌入空间,提供全面的视觉信息 [53][55][56] - 理想汽车MindVLA采用了另一条技术路线,其V模块基于3D高斯建模进行自监督3D编码器预训练,旨在生成高保真的3D场景表示 [57][59][60] - 语言编码器是VLA的“大脑”和决策中枢,负责融合视觉与文本令牌并进行跨模态推理 [62] - 主流选择包括LLaMA家族(如LLaMA-2、Vicuna)和Qwen系列(如Qwen-2.5) [63][64][66][70] - 其工作流程是接收来自V模块的视觉令牌和用户文本指令,通过自注意力计算进行高级推理(如场景分析、动作推理),最终输出高度浓缩的“动作令牌”或“规划令牌”作为意图指令 [67][69][71][72] - 部署优化策略包括LoRA(低秩适应)轻量化微调和MoE(混合专家)架构,理想汽车MindVLA则自研了名为MindGPT的LLM,专为3D驾驶场景和车端实时推理设计 [73][74][75][79] - 动作解码器是VLA的“手脚”,负责将“大脑”输出的意图令牌解码为真实、物理、可执行的控制信号 [76][77][80] - 基于扩散的Transformer是目前最受青睐的“黄金标准”方案,因其擅长建模复杂多模态动作分布,能生成细粒度、平滑、“拟人化”的轨迹 [81][82] - 其他主流方案包括自回归Transformer头、MLP预测器头和嵌入式MPC/规划头 [86] - Diffusion模型通过“迭代去噪”工作,为满足实时性要求,MindVLA等架构采用了ODE采样器等技术将去噪步骤压缩到2到3步内完成 [82] VLA的四个进化阶段 - VLA架构的演进经历了四个清晰的阶段,语言在系统中的角色从被动“解释器”逐步演变为主动“决策核心” [84][85] - 阶段一:语言模型作为“解释器”(Pre-VLA),如DriveGPT-4,其核心目标是增强系统可解释性,输出场景描述或高阶操纵标签,但存在“语义鸿沟”,对实际驾驶帮助有限 [88][89][90] - 阶段二:模块化VLA模型,语言演变为模块化架构中主动的规划组件,如OpenDriveVLA、DriveMoE、RAG-Driver,通过生成可解释的中间表示来指导动作执行,但存在多阶段处理带来的延迟和级联错误风险 [91][92][93][94][97] - 阶段三:统一的端到端VLA模型,在一个单一、可微分的网络中无缝整合感知、语言理解和动作生成,代表作包括EMMA、LMDrive、CarLLaVA和SimLingo,它们通过“行动构想”等技术在语言理解和轨迹输出间建立紧密耦合,反应灵敏但长时程规划和细粒度决策解释能力仍存局限 [95][96][98][99][100][101] - 阶段四:推理增强的VLA模型,这是最新前沿阶段,将VLM/LLM提升为系统的“决策核心”,赋予其“思考”能力,代表作如ORION、Impromptu VLA和AutoVLA,它们将“思维链”与“行动”进行端到端对齐,在输出动作前先进行解释、预测和长时程推理,预示了“可对话的自动驾驶汽车”的未来,但也带来了实时性、记忆索引和安全验证等新挑战 [102][103][104][106]