Workflow
全栈自研,理想发布下一代自动驾驶架构 MindVLA
AI科技大本营·2025-03-18 11:29

核心观点 - 理想汽车发布下一代自动驾驶架构MindVLA,融合视觉、语言和行为智能,赋予车辆3D空间理解、逻辑推理和行为生成能力,实现从运输工具到智能司机的转变[1][13][15] - MindVLA采用3D高斯表示、MoE混合专家架构LLM基座模型、Diffusion轨迹优化等关键技术,平衡模型参数规模与实时推理性能[1][4][7] - 该架构基于全栈自研,深度融合空间、语言及行为智能,通过端到端+VLM双系统架构实现感知、思考和适应环境的能力[1][3] 技术架构 - 采用3D高斯作为中间表征,提升多粒度、多尺度3D几何表达能力,利用海量数据自监督训练提升下游任务性能[4] - 自研MoE混合专家架构LLM基座模型,引入稀疏注意力实现模型稀疏化,加入3D数据训练使模型具备空间理解和推理能力[7] - 通过Diffusion将Action Token解码为优化轨迹,采用常微分方程采样器实现2-3步完成高质量轨迹生成,结合RLHF微调提升安全下限[7] 功能特性 - 实现"听得懂":支持语音指令改变路线和行为,如自主寻找超市或调整行驶速度[13] - 实现"看得见":具备通识能力识别商业招牌,通过环境照片定位用户位置[15] - 实现"找得到":自主漫游寻找车位,不依赖地图信息完成复杂空间推理[15] 性能突破 - 3D GS训练速度提升至7倍以上,显著优化场景重建与生成效率[10] - 采用并行解码技术和投机推理,充分发挥NVIDIA Drive AGX性能,实现实时推理[7] - 通过世界模型构建仿真环境,完成大规模闭环强化学习,实现"从错误中学习"[10] 行业影响 - 重新定义自动驾驶,如同iPhone 4重新定义手机,将汽车转变为能与用户沟通的智能体[15] - 探索物理世界与数字世界结合范式,未来有望赋能多个行业发展[1][15] - 展示跨场景适应性,不仅在驾驶场景优异,在室内环境也表现出延展性[12]