詹锟讲理想下一代自动驾驶基础模型MindVLA-o1图文版/压缩版/视频版

公司自动驾驶技术架构演进 - 2024年是技术路线分水岭，公司率先量产了“端到端加VLM”的双系统自动驾驶架构，其中端到端模型负责快速驾驶决策，VLM负责高层次语义理解和推理 [17][18] - 2025年，公司将端到端模型与VLM深度融合，形成MindVLA系统，将语义理解、语言交互、逻辑推理及驾驶决策统一整合到一个模型框架中，并引入强化学习进行自我优化 [18] - 从“端到端加VLM”到MindVLA的演进，解决了双系统中空间理解、语言理解和行为决策在不同模型中对齐效率低的问题，演化为统一的基础模型架构 [19][22] 下一代统一架构MindVLA-o1的核心设计 - 采用原生多模态的MoE Transformer架构，在设计之初就将视觉、语言、行动三种模态进行联合训练，而非先训练后组合，以实现更高效率和更强泛化能力 [3][31] - 引入原生3D视觉Tokenizer，通过3D ViT encoder直接对真实世界三维结构建模，融合激光雷达的几何信息和视觉的语义信息，提供高质量的3D世界表征 [4][31][34] - 具备多模态推理能力，语言模型承担语义理解、常识知识和交互功能，并引入“系统2”的显式推理能力进行深层决策分析 [5][32] - 集成隐式世界模型，通过Predictive Latent World Model在隐空间中模拟未来环境状态，实现“多模态思考”，以支持更优的驾驶决策 [5][32][38] - 设计了Unified Action Generation模块，在MoE架构中引入专门负责行动的Action Expert，从3D场景特征、导航目标等多模态输入生成高精度驾驶轨迹 [6][43] 针对业界VLA关键挑战的解决方案 - 针对3D空间、语言思考与行为对齐效率低的挑战，通过原生多模态联合训练和3D空间直接建模来提升对齐精度与整体推理效率 [3][24][31] - 针对长尾场景覆盖难题，结合合成数据与强化学习，并在架构设计之初就考虑强化学习范式，通过仿真环境进行大规模训练以提升泛化能力和鲁棒性 [3][25][26] - 针对高计算成本与内存开销的挑战，提出必须进行软硬件协同的架构设计，通过联合优化模型架构、推理系统及硬件能力来实现车端规模化落地 [3][27][28][29] 轨迹生成与系统优化的关键技术 - 轨迹生成采用Parallel Decoding而非自回归方式，所有轨迹点并行生成，大幅提升生成效率，尤其优化了长时距轨迹预测 [7][43] - 引入Discrete Diffusion优化方案，通过N步迭代对轨迹进行精细化处理，类似逐步去噪，保证了生成轨迹的精度 [8][44] - 轨迹生成机制总结为：MoE保证专业性，Parallel保证速度，Diffusion保证精度 [9][44] - 通过软硬件协同的Scaling Law方案，将模型架构探索时间从数月缩短到几天，在端侧计算受限时，发现更宽更浅的模型结构比传统深层模型更有效 [10][53][55][56] 数据、仿真与强化学习闭环系统 - MindData是统一的多模态数据引擎，用于持续采集、清洗、自动标注大规模驾驶和行为数据 [1][58] - MindSim是可控的多模态世界模型，可生成复杂驾驶场景以扩展数据能力，并支持大规模闭环训练 [2][58] - RL Infra通过奖励模型和策略学习，使系统能在仿真和真实环境中持续自我迭代与进化 [2][58] - 强化学习框架中，World Simulator的能力决定上限，公司采用前馈3DGS场景重建方式，能瞬时生成大规模高保真驾驶场景，且泛化能力支持大规模并行训练 [10][47] - 与英伟达合作，借助NVIDIA Cosmos和NuRec构建了统一的3DGS渲染引擎和分布式训练框架，渲染速度提升接近两倍，整体训练成本降低约75% [49][50] 系统全景与未来愿景 - 整套系统由MindData、MindVLA-o1、MindSim和RL Infra四部分组成，构成面向物理世界智能的基础模型全景图 [58][59] - 系统结构类比动物大脑：视觉感知如视觉皮层，推理规划如前额叶，动作生成如运动皮层，强化学习反馈如多巴胺系统，形成完整的行为闭环 [2][60] - 公司认为行业正进入具身AI新阶段，统一的MindVLA基础模型范式不仅可用于自动驾驶，还可用于控制机器人、机械臂等不同形态的物理智能体 [63][68][69] - 公司的目标是构建一个可在真实世界中运行的数字大脑，让通用AI真正进入物理世界，自动驾驶只是这一过程的起点 [2][60][68]