文章核心观点 - 理想汽车在2026年发布的LinkVLA论文中,提出了与其在2025年GTC大会上所阐述的VLA处理思路存在本质不同的新架构 这一变化的核心在于将自动驾驶动作从语言大模型需要翻译的“输出结果”转变为LLM可以直接理解和生成的“原生语言” 通过将物理坐标直接token化并与语言词表对齐 使LLM获得了直接操纵物理空间的能力 从而在轨迹生成精度、推理速度和语义理解对齐方面实现了显著提升 [1][2] VLA架构的本质变化 - 动作表征的根本转变:新架构认为动作不应是LLM的输出结果 而应是其原生语言 通过将坐标直接token化并引入对数空间分布 LLM具备了直接操纵物理空间的能力 无需依赖diffusion模型作为中间“翻译官” [2] - 动作Token的重新定义:旧版VLA的动作Token是高维环境特征编码 包含对3D空间的理解、他车状态和自车意图 需经diffusion翻译生成轨迹 而LinkVLA的动作Token是离散化的BEV空间坐标 每个Token对应唯一网格坐标 环境理解被保留在LLM隐藏层 输出层Token仅代表位置 [3] - 底层词表的结构化对齐:LLM像预测“苹果”一词一样 直接预测坐标网格ID 动作与语言在底层共享同一个词表 实现了实质上的结构化对齐 [4] 轨迹生成与精度提升 - 从并行解码到两步Token化:旧版采用并行解码一次性输出所有动作Token 再由diffusion迭代采样 新版采用两步法 先预测代表终点的Token 再在插值基础上预测一组残差Token来修正坐标 实现了更高的轨迹精度 [5] - 推理速度与延迟优化:两步Token化的方法大幅提升了推理速度并降低了时延 [5] - 非线性空间感知网格:在Token化时采用近处密集、远处稀疏的非均匀网格 解决了传统均匀网格在近场控制精度不足的问题 Token本身即带有空间感知的非线性特征 [5] 语义理解与模型对齐 - 从单向对齐到双向对齐:旧版VLA通过RLHF在输出端微调以对齐驾驶偏好 新版LinkVLA引入了“动作理解”训练任务 不仅要求模型根据指令生成轨迹 还要求其能将行驶轨迹反向翻译成文字描述 [6][7] - 解决语义鸿沟问题:这种双向语义绑定旨在解决VLA的语义鸿沟问题 确保模型在做出如“左转”决策时 其生成的轨迹能准确对应 如果模型无法将轨迹正确翻译为文字 则被认为未真正掌握该动作 [7]
理想对VLA的处理思路有可能发生了本质变化