理想IM智驾系统 - 财报，业绩电话会，研报，新闻

理想IM智驾系统

搜索文档

自动驾驶之心· 2025-12-07 10:05

自动驾驶技术范式演进 - 行业技术范式快速迭代，从前年的BEV（鸟瞰图视角）到去年的“端到端”（End-to-End），再到2025年的技术焦点VLA（视觉-语言-行动）模型 [1][6] - 传统的端到端（VA）模型存在“黑箱”问题，系统能做出正确操作但缺乏可解释性，引发了信任危机 [1] - 视觉语言模型（VLM）能理解和解释场景，但存在“行动鸿沟”，其输出停留在语言层面，无法直接控制车辆 [3] - VLA模型是一场彻底的范式革命，旨在融合计算机视觉、自然语言处理和强化学习，打造一个既能感知、理解又能执行动作的“可解释的大脑” [6][45] “真”端到端架构辨析 - 一个“真”的端到端驾驶系统必须是一个统一的、完整的神经网络，接收原始传感器输入并直接输出可执行的控制信号，且具备“全程可求导”特性 [8][9] - VLM的引入从架构上“打断”了端到端的闭环，因为其输出是文本而非可执行的轨迹，导致学习信号无法从车辆动作反向传播到VLM，无法受益于自动化的数据闭环驱动 [11][12][13][15][16] - 行业早期的“快慢双核”系统（如理想汽车IM智驾系统）是“半”端到端的过渡形态，它将VLM（慢系统）与传统的VA模型（快系统）拼凑，存在异步冲突、架构臃肿和信息损失、优化困难等致命缺陷 [17][18][20][21][22][26] - VLA是“真”端到端，它回归了从传感输入到轨迹输出的统一神经网络形式，实现了“全程可求导”，驾驶错误信号可以无阻碍地反向传播至整个模型，从而支持高效的数据驱动迭代 [23][25][27] VLA解决的核心痛点 - VLA旨在解决“快慢双核”架构暴露的四大核心痛点：长尾场景挑战、语义鸿沟、空间精度不高、时序建模瓶颈 [31] - 自动驾驶的最大挑战是高度语义化、非标准化的“长尾场景”，如复杂的龙门架、可变车道、临时指示等，传统VA模型无法处理 [32][33][34][35][37] - VLM虽然能理解长尾场景，但其输出的文本与车辆控制器所需的精确数值向量之间存在“语义鸿沟”，导致“行动鸿沟” [36][38][39] - 强行让VLM输出轨迹会导致空间精度不高，其基于语言生成的轨迹点易产生偏差，无法满足高精度控制要求 [40] - VLM在处理时序任务时采用叠加多帧图像的方法，会受到Token长度限制（如8K上下文窗口仅能处理约16帧，约2秒历史）和巨大计算开销的制约，无法进行长时程规划 [41][42][43][44] VLA的通用技术栈 - VLA模型通常由三个核心技术组件构成：视觉编码器（V）、语言编码器（L）和动作解码器（A） [46] - 视觉编码器是VLA的“眼睛”，负责将原始图像转换为LLM能理解的视觉令牌，主流方案包括CLIP/SigLIP和DINOv2 [48] - CLIP/SigLIP提供强大的视觉-文本对齐能力，擅长识别和描述图像内容（“是什么”） [49][51][52] - DINOv2通过自监督学习提供强大的空间理解和高级视觉语义能力（“在哪里/怎么样”） [52] - 顶尖方案（如OpenVLA）采用SigLIP + DINOv2双编码器并联，融合两者特征后通过MLP投影器对齐到LLM的令牌嵌入空间，提供全面的视觉信息 [53][55][56] - 理想汽车MindVLA采用了另一条技术路线，其V模块基于3D高斯建模进行自监督3D编码器预训练，旨在生成高保真的3D场景表示 [57][59][60] - 语言编码器是VLA的“大脑”和决策中枢，负责融合视觉与文本令牌并进行跨模态推理 [62] - 主流选择包括LLaMA家族（如LLaMA-2、Vicuna）和Qwen系列（如Qwen-2.5） [63][64][66][70] - 其工作流程是接收来自V模块的视觉令牌和用户文本指令，通过自注意力计算进行高级推理（如场景分析、动作推理），最终输出高度浓缩的“动作令牌”或“规划令牌”作为意图指令 [67][69][71][72] - 部署优化策略包括LoRA（低秩适应）轻量化微调和MoE（混合专家）架构，理想汽车MindVLA则自研了名为MindGPT的LLM，专为3D驾驶场景和车端实时推理设计 [73][74][75][79] - 动作解码器是VLA的“手脚”，负责将“大脑”输出的意图令牌解码为真实、物理、可执行的控制信号 [76][77][80] - 基于扩散的Transformer是目前最受青睐的“黄金标准”方案，因其擅长建模复杂多模态动作分布，能生成细粒度、平滑、“拟人化”的轨迹 [81][82] - 其他主流方案包括自回归Transformer头、MLP预测器头和嵌入式MPC/规划头 [86] - Diffusion模型通过“迭代去噪”工作，为满足实时性要求，MindVLA等架构采用了ODE采样器等技术将去噪步骤压缩到2到3步内完成 [82] VLA的四个进化阶段 - VLA架构的演进经历了四个清晰的阶段，语言在系统中的角色从被动“解释器”逐步演变为主动“决策核心” [84][85] - 阶段一：语言模型作为“解释器”（Pre-VLA），如DriveGPT-4，其核心目标是增强系统可解释性，输出场景描述或高阶操纵标签，但存在“语义鸿沟”，对实际驾驶帮助有限 [88][89][90] - 阶段二：模块化VLA模型，语言演变为模块化架构中主动的规划组件，如OpenDriveVLA、DriveMoE、RAG-Driver，通过生成可解释的中间表示来指导动作执行，但存在多阶段处理带来的延迟和级联错误风险 [91][92][93][94][97] - 阶段三：统一的端到端VLA模型，在一个单一、可微分的网络中无缝整合感知、语言理解和动作生成，代表作包括EMMA、LMDrive、CarLLaVA和SimLingo，它们通过“行动构想”等技术在语言理解和轨迹输出间建立紧密耦合，反应灵敏但长时程规划和细粒度决策解释能力仍存局限 [95][96][98][99][100][101] - 阶段四：推理增强的VLA模型，这是最新前沿阶段，将VLM/LLM提升为系统的“决策核心”，赋予其“思考”能力，代表作如ORION、Impromptu VLA和AutoVLA，它们将“思维链”与“行动”进行端到端对齐，在输出动作前先进行解释、预测和长时程推理，预示了“可对话的自动驾驶汽车”的未来，但也带来了实时性、记忆索引和安全验证等新挑战 [102][103][104][106]