Workflow
理想VLA到底是不是真的VLA?
自动驾驶之心·2025-08-22 07:34

文章核心观点 - 理想MindVLA是机器人领域基于大语言模型(LLM)作为主干网络的狭义VLA(Vision-Language-Action)模型,通过多模态信息整合编码和决策输出实现更优的自动驾驶能力,其核心优势包括防御性驾驶、场景理解能力和轨迹稳定性 [2][5][7] 技术架构与原理 - VLA基于LLM作为主干网络,串行整合多模态信息(视觉、激光雷达、语言、地图、定位),输出决策并转换为轨迹及控制细节 [2] - 模型通过扩散模型生成轨迹,相比端到端(E2E)模型更收敛,具备稳定的中短时序轨迹生成能力 [10] - 语音功能是LLM的附加能力,具备基础语音和记忆功能 [11] 场景性能对比(VLA vs E2E+VLM) 防御性驾驶 - 在无遮挡十字路口行驶快速稳健,在有遮挡路口基于剩余距离丝滑减速,减速G值根据距离动态调整,无漏检或虚惊情况 [4][5] - E2E模型难以学会丝滑减速,VLM模块在丁字路口需强制减速但体感为急刹 [3] 拥堵场景决策 - VLA在拥堵高架场景中,让行2辆Cut-in车辆后主动向左变道,避免持续加塞,体现深度场景理解能力 [7] - E2E+VLM通常触发绕行逻辑,缺乏真实场景理解能力 [7] 非标准车道行驶 - VLA在1.5-2.5倍宽闸道轻微减速并居中行驶,无画龙现象 [9][11] - E2E+VLM在该场景100%出现轻微画龙轨迹 [10] 复杂路径规划 - VLA在路口右转后需短距离左转时选择直行并触发导航重规划,决策坚决 [11] - E2E+VLM大概率直接变道或小概率直行 [11] 能力边界与局限性 - 当前版本为辅助驾驶而非自动驾驶,需随时接管 [11] - 行车场景(地面/高架/高速)为完整技术栈,但偶发异常如绿灯不走或误判红绿灯 [11] - 部分场景控车细节仍逊于FSD,但选路能力在杭州优于FSD [11] 迭代与工程优化 - VLA因MoE(混合专家模型)和工程巧思,分场景、能力、细节并行优化,迭代速度快于E2E模型 [11] - 关键信息提取COT(Chain-of-Thought)延迟可接受,在路口15-20米触发防御性减速 [11] 硬件与部署 - 模型运行于2022年双OrinX计算芯片平台 [12]