Workflow
统一智能体
icon
搜索文档
别急着教AI开车,先让它看懂世界
虎嗅APP· 2026-03-21 18:10
自动驾驶行业竞争逻辑的转变 - 过去两三年,中国自动驾驶的竞争主要比拼功能推进速度,如高速NOA、城市领航、自动泊车等功能的覆盖与上线速度[2] - 当前,这套以功能叠加为核心的竞争逻辑正在接近上限,主流玩家在功能层面差距缩小,复杂场景更考验系统的整体连续能力[3] - 行业竞争重点正从“功能竞争”转向“架构竞争”,功能决定当下产品竞争力,而架构决定系统未来的演进和变强能力[3][4] MindVLA-o1 架构的核心定位与目标 - MindVLA-o1是理想汽车对自动驾驶架构竞争的回答,旨在定义下一代自动驾驶系统的形态[6][7] - 该架构的目标是将自动驾驶系统打造成一个能统一理解、判断和行动的“驾驶大脑”,将竞争核心从功能推进到模型能力[14] - 其长期愿景不限于自动驾驶,而是作为“物理AI的起点”,最终构建一套面向物理世界的统一智能基座,未来可延展至更广泛的车载智能乃至具身智能[30][31] MindVLA-o1 旨在解决的关键技术问题 - **解决三维空间理解问题**:采用以视觉为核心的3D ViT,结合激光雷达几何提示,让系统不仅识别物体语义,更能理解物体在三维空间中的位置与关系,奠定稳定的能力底座[15][16][18] - **解决对动态环境的预测问题**:在语言模型基础上引入预测式隐世界模型,在隐空间中推演未来场景变化,使系统能从“看懂现在”推进到“推演下一步”[19] - **解决思考与行动的协同问题**:通过引入专门的行为专家(Action Expert)及并行解码、离散扩散等技术,将感知、推理和控制尽量纳入同一套架构,减少模块间信息损耗,将判断稳定转化为符合车辆动力学的动作[21][22] - **解决快速学习与迭代问题**:通过统一的三维高斯泼溅渲染引擎和分布式训练框架构建世界模拟器,支持模型在仿真环境中持续探索、试错和优化,渲染速度提升近2倍,整体训练成本降低约75%[23][24] - **解决车端部署落地问题**:通过评估近2000种模型架构配置,在英伟达Orin与Thor平台上寻找精度与延迟的帕累托最优,强调软硬件协同设计,确保大模型在车端有限资源下的高效部署[25] 行业不同发展路径与理想的战略选择 - 行业共识是单靠功能堆叠已难提升系统能力上限,玩家都在向更统一的系统能力收敛,但具体路径存在分歧[28] - 部分玩家重点聚焦于提升安全边界与系统可靠性,部分则侧重于大规模数据训练与迭代机制[29] - 理想选择的路径是优先夯实系统对物理世界的理解,再将预判、推理和控制收进同一套逻辑,构建“看懂世界-推演变化-形成动作”的“驾驶大脑”能力框架[29] - 未来行业竞争焦点将从功能覆盖转向模型能力,核心资源部分从供应链优势转向“数据+算力+模型”的组合能力,能否持续训练和迭代“车的大脑”将成为车企新的分层标准[32] MindVLA-o1 发布的战略意义 - 此次发布意味着理想在自动驾驶从功能竞争走向架构竞争的时间点上,明确将赌注押向“统一智能体”方向[35] - 行业深层竞争正转向:谁能更稳定地组织理解、预判和行动,并让系统在复杂现实中持续积累能力[35] - 这并非一次普通的功能升级,而是代表了竞争命题的转换:过去比功能全面性,现在比谁能先做出“驾驶大脑”,未来则将比拼谁能做出能理解世界、持续成长的统一智能体[35]