理想汽车发布下一代自动驾驶基础模型MindVLA-o1，向具身智能通用模型进化

公司技术发布与战略 - 理想汽车在NVIDIA GTC2026上正式发布下一代自动驾驶基础模型MindVLA-o1 [1] - 该模型通过五大技术创新构建面向物理世界智能的自动驾驶基础模型，旨在让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效 [1] - 公司认为，当视觉、语言和行动统一到一个模型中时，它不再只是自动驾驶模型，而是在逐渐演化为面向物理世界的通用智能体，可扩展到机器人领域 [1] - 自动驾驶被公司视为物理AI的起点，未来这类基础模型将驱动新的具身智能范式 [1] 技术演进路径与现有成果 - 自2021年启动辅助驾驶自研以来，公司技术架构持续迭代，2024年是重要分水岭，端到端+VLM双系统量产交付 [1] - 2025年，公司构建了基于VLA、世界模型与强化学习的VLA司机大模型，并于8月随理想i8交付，9月向AD Max用户全量推送 [1] - 截至2025年底，VLA司机大模型月使用率达到80%，VLA指令累计使用1225.4万次 [2] - 2025年春节期间，理想辅助驾驶总里程达2.5亿公里，VLA指令使用次数达130.3万次，规模化验证为下一代技术演进提供了坚实基础 [2] MindVLA-o1五大技术创新细节 - 看得更远：3D空间理解 采用以视觉为核心的3D ViT编码器，利用激光雷达点云作为几何提示，引入前馈式3DGS表示，通过下一帧预测作为自监督信号学习深度、语义与运动 [5] - 想得更深：多模态思考 在语言模型基础上引入预测式隐世界模型，在隐空间中模拟未来，训练分三阶段，使模型不仅能理解场景，还能“想象”未来并将决策具象化 [6] - 行得更稳：统一行为生成 使用VLA-MoE架构，引入Action Expert从多维输入中生成高精度轨迹，采用并行解码提升效率，并引入Discrete Diffusion进行多轮迭代优化以确保轨迹稳定 [7] - 进化更快：闭环强化学习 构建闭环强化学习框架，将逐步优化式重建升级为前馈场景重建以瞬时生成大规模高保真驾驶场景，渲染速度提升近2倍，训练成本降低约75% [9] - 部署更高效：软硬件协同设计 提出面向端侧大模型的软硬件协同设计定律，评估近2000种模型架构配置，在英伟达Orin与Thor平台上找到帕累托前沿，将架构探索时间从数月缩短至数天 [11] 核心AI框架与未来愿景 - MindVLA-o1是公司面向物理世界智能核心AI框架的重要组成部分，该框架由MindData、MindVLA-o1、MindSim、RL Infra四大模块协同形成完整闭环 [13] - 该框架如同一个“数字大脑”，实现了感知、理解、行动和持续优化的完整闭环 [13] - 该框架不仅服务于汽车，也可扩展至机器人及各种物理系统，公司认为车是最大号的机器人，其本质是在构建硅基生命体的躯干与大脑 [15] - 公司在人工智能领域顶级学术会议发表大量研究成果，MindVLA-o1相关多篇论文已在CVPR、ICLR、ICRA、AAAI等国际顶会发表 [15] - 公司未来将继续投入前沿研究及核心技术自研，持续构建面向物理世界智能的完整AI系统，坚定迈向全球领先的具身智能企业 [15]