理想对VLA的处理思路有可能发生了本质变化

文章核心观点 - 理想汽车在2026年发布的LinkVLA论文中，提出了与其在2025年GTC大会上所阐述的VLA处理思路存在本质不同的新架构这一变化的核心在于将自动驾驶动作从语言大模型需要翻译的“输出结果”转变为LLM可以直接理解和生成的“原生语言” 通过将物理坐标直接token化并与语言词表对齐使LLM获得了直接操纵物理空间的能力从而在轨迹生成精度、推理速度和语义理解对齐方面实现了显著提升 [1][2] VLA架构的本质变化 - 动作表征的根本转变：新架构认为动作不应是LLM的输出结果而应是其原生语言通过将坐标直接token化并引入对数空间分布 LLM具备了直接操纵物理空间的能力无需依赖diffusion模型作为中间“翻译官” [2] - 动作Token的重新定义：旧版VLA的动作Token是高维环境特征编码包含对3D空间的理解、他车状态和自车意图需经diffusion翻译生成轨迹而LinkVLA的动作Token是离散化的BEV空间坐标每个Token对应唯一网格坐标环境理解被保留在LLM隐藏层输出层Token仅代表位置 [3] - 底层词表的结构化对齐：LLM像预测“苹果”一词一样直接预测坐标网格ID 动作与语言在底层共享同一个词表实现了实质上的结构化对齐 [4] 轨迹生成与精度提升 - 从并行解码到两步Token化：旧版采用并行解码一次性输出所有动作Token 再由diffusion迭代采样新版采用两步法先预测代表终点的Token 再在插值基础上预测一组残差Token来修正坐标实现了更高的轨迹精度 [5] - 推理速度与延迟优化：两步Token化的方法大幅提升了推理速度并降低了时延 [5] - 非线性空间感知网格：在Token化时采用近处密集、远处稀疏的非均匀网格解决了传统均匀网格在近场控制精度不足的问题 Token本身即带有空间感知的非线性特征 [5] 语义理解与模型对齐 - 从单向对齐到双向对齐：旧版VLA通过RLHF在输出端微调以对齐驾驶偏好新版LinkVLA引入了“动作理解”训练任务不仅要求模型根据指令生成轨迹还要求其能将行驶轨迹反向翻译成文字描述 [6][7] - 解决语义鸿沟问题：这种双向语义绑定旨在解决VLA的语义鸿沟问题确保模型在做出如“左转”决策时其生成的轨迹能准确对应如果模型无法将轨迹正确翻译为文字则被认为未真正掌握该动作 [7]