技术架构分析 - 理想MindVLA采用基于大语言模型(LLM)的主干网络,实现多模态信息整合(视觉、激光雷达、语言、地图、定位等),并通过LLM输出决策后转换为控制轨迹[1] - 技术路径属于狭义的VLA(Vision-Language-Action)架构,与传统的E2E+VLM模型存在显著差异[1] - 系统采用串行神经网络结构,决策通过扩散模型生成更稳定的轨迹[3] 场景性能表现 防御性驾驶 - 在无遮挡十字路口可实现快速稳健行驶,有遮挡路口会根据剩余距离实现G值可调的丝滑减速[1] - 相比E2E+VLM模型(需特定模块强制减速),VLA减速过程更自然且无漏检/虚警现象[1][2] 拥堵场景处理 - 高架拥堵时能主动选择向左变道规避右侧持续加塞车辆,体现场景理解能力[2] - 传统E2E+VLM模型在该场景仅触发绕行逻辑,缺乏深度推理能力[2] 非标车道控制 - 在1.5-2.5倍宽度的匝道中自动选择居中行驶,彻底消除E2E模型常见的"画龙"现象[3] - 扩散模型生成的轨迹具有更好的中短时序稳定性[3] 复杂路径规划 - 面对50米内需连续变3车道的场景,VLA会坚决选择直行触发导航重规划[4] - E2E模型在该场景可能冒险变道或被动触发重规划[4] 能力边界评估 - 语音交互功能基于LLM实现,具备基础语音和记忆能力[4] - 高维度选路能力显著提升,底层控制更稳健[4] - 当前仍属L2级辅助驾驶,需随时准备接管[4][5] - 在杭州部分场景(三点式掉头、语义理解)表现优于FSD,但控车细节仍存差距[5] 技术迭代优势 - 采用MoE架构和工程优化,分场景并行迭代效率高于传统端到端模型[4] - 关键信息提取延迟控制在15-20米范围,满足防御性驾驶需求[4] 现存问题 - 偶发交通信号误判(如将主路红灯误判为辅路信号)[5] - 存在跟随前车错误决策的案例需人工接管[5] 硬件配置 - 测试系统搭载于2022款双OrinX计算芯片平台[6]
理想VLA到底是不是真的VLA?