詹锟讲理想下一代自动驾驶基础模型MindVLA-o1图文版/压缩版/视频版

公司自动驾驶技术架构演进 - 2024年是技术路线分水岭,公司率先量产了“端到端加VLM”的双系统自动驾驶架构,其中端到端模型负责快速驾驶决策,VLM负责高层次语义理解和推理 [17][18] - 2025年,公司将端到端模型与VLM深度融合,形成MindVLA系统,将语义理解、语言交互、逻辑推理及驾驶决策统一整合到一个模型框架中,并引入强化学习进行自我优化 [18] - 从“端到端加VLM”到MindVLA的演进,解决了双系统中空间理解、语言理解和行为决策在不同模型中对齐效率低的问题,演化为统一的基础模型架构 [19][22] 下一代统一架构MindVLA-o1的核心设计 - 采用原生多模态的MoE Transformer架构,在设计之初就将视觉、语言、行动三种模态进行联合训练,而非先训练后组合,以实现更高效率和更强泛化能力 [3][31] - 引入原生3D视觉Tokenizer,通过3D ViT encoder直接对真实世界三维结构建模,融合激光雷达的几何信息和视觉的语义信息,提供高质量的3D世界表征 [4][31][34] - 具备多模态推理能力,语言模型承担语义理解、常识知识和交互功能,并引入“系统2”的显式推理能力进行深层决策分析 [5][32] - 集成隐式世界模型,通过Predictive Latent World Model在隐空间中模拟未来环境状态,实现“多模态思考”,以支持更优的驾驶决策 [5][32][38] - 设计了Unified Action Generation模块,在MoE架构中引入专门负责行动的Action Expert,从3D场景特征、导航目标等多模态输入生成高精度驾驶轨迹 [6][43] 针对业界VLA关键挑战的解决方案 - 针对3D空间、语言思考与行为对齐效率低的挑战,通过原生多模态联合训练和3D空间直接建模来提升对齐精度与整体推理效率 [3][24][31] - 针对长尾场景覆盖难题,结合合成数据与强化学习,并在架构设计之初就考虑强化学习范式,通过仿真环境进行大规模训练以提升泛化能力和鲁棒性 [3][25][26] - 针对高计算成本与内存开销的挑战,提出必须进行软硬件协同的架构设计,通过联合优化模型架构、推理系统及硬件能力来实现车端规模化落地 [3][27][28][29] 轨迹生成与系统优化的关键技术 - 轨迹生成采用Parallel Decoding而非自回归方式,所有轨迹点并行生成,大幅提升生成效率,尤其优化了长时距轨迹预测 [7][43] - 引入Discrete Diffusion优化方案,通过N步迭代对轨迹进行精细化处理,类似逐步去噪,保证了生成轨迹的精度 [8][44] - 轨迹生成机制总结为:MoE保证专业性,Parallel保证速度,Diffusion保证精度 [9][44] - 通过软硬件协同的Scaling Law方案,将模型架构探索时间从数月缩短到几天,在端侧计算受限时,发现更宽更浅的模型结构比传统深层模型更有效 [10][53][55][56] 数据、仿真与强化学习闭环系统 - MindData是统一的多模态数据引擎,用于持续采集、清洗、自动标注大规模驾驶和行为数据 [1][58] - MindSim是可控的多模态世界模型,可生成复杂驾驶场景以扩展数据能力,并支持大规模闭环训练 [2][58] - RL Infra通过奖励模型和策略学习,使系统能在仿真和真实环境中持续自我迭代与进化 [2][58] - 强化学习框架中,World Simulator的能力决定上限,公司采用前馈3DGS场景重建方式,能瞬时生成大规模高保真驾驶场景,且泛化能力支持大规模并行训练 [10][47] - 与英伟达合作,借助NVIDIA Cosmos和NuRec构建了统一的3DGS渲染引擎和分布式训练框架,渲染速度提升接近两倍,整体训练成本降低约75% [49][50] 系统全景与未来愿景 - 整套系统由MindData、MindVLA-o1、MindSim和RL Infra四部分组成,构成面向物理世界智能的基础模型全景图 [58][59] - 系统结构类比动物大脑:视觉感知如视觉皮层,推理规划如前额叶,动作生成如运动皮层,强化学习反馈如多巴胺系统,形成完整的行为闭环 [2][60] - 公司认为行业正进入具身AI新阶段,统一的MindVLA基础模型范式不仅可用于自动驾驶,还可用于控制机器人、机械臂等不同形态的物理智能体 [63][68][69] - 公司的目标是构建一个可在真实世界中运行的数字大脑,让通用AI真正进入物理世界,自动驾驶只是这一过程的起点 [2][60][68]

詹锟讲理想下一代自动驾驶基础模型MindVLA-o1图文版/压缩版/视频版 - Reportify