Workflow
LinkVLA
icon
搜索文档
没有标题党, 理想系统性重构语言-动作模型
理想TOP2· 2026-03-04 15:47
文章核心观点 - 理想汽车在其LinkVLA论文中提出,当前视觉语言动作模型落地的核心障碍是语言理解与物理动作之间的持续性错位,而行业现有解法是在回避问题本质[1] - 公司认为,应将模态对齐视为一个需要从架构层消灭的结构性问题,而非需要修补的缺陷,并据此进行了系统性重构[1][7] - 其提出的Shared Codebook、Action Understanding Objective和Coarse-to-Fine架构三大原创贡献,共同构成了一条从结构、语义到效率的完整逻辑链,旨在解决VLA的根本问题[6] 1. Shared Codebook: 架构层消灭模态间隙 - 大多数VLA模型的做法是将人类语言翻译成车辆动作坐标,翻译过程存在无直接监督信号约束的损耗[2] - LinkVLA的原创性在于将语言和轨迹塑造成同一种数字方言,从源头上消除了翻译需求[3] - 具体实现是将BEV下的连续轨迹坐标,通过对数坐标变换和空间感知量化,离散化为5,656个动作Token,再与语言模型的文本词表合并,形成统一的Shared Codebook[3] - 语言Token和动作Token的嵌入向量在同一个空间内端到端联合学习,使得指令与轨迹在模型的表征空间里成为同一向量空间中的对称点,从而在结构层面消灭了模态间隙[3] 2. Action Understanding Objective: 建立语义双向约束 - 仅能生成统计上正确动作的模型并不可靠,在长尾场景中无法调用语言常识进行推理[4] - LinkVLA引入了Action Understanding Objective,在训练中强制模型执行双向任务:既根据语言指令生成轨迹,也根据已有轨迹和视觉上下文反向生成对应的语言描述[4] - 双向任务共享同一个解码器,仅交换预测目标角色,这种双向约束为动作Token赋予了更深的语义锚定[4] - 消融实验显示,加入该对齐模块后,在Action Dreaming指令跟随评测中,整体平均成功率从81.63%升至87.16%,变道成功率从88.49%升至97.42%[4] 3. Coarse-to-Fine架构: 解决实时性瓶颈 - 自回归生成是大模型天性,但在自动驾驶中构成实时性障碍,LinkVLA的纯自回归版本推理时延达361ms[5] - LinkVLA的Coarse-to-Fine架构将T步串行依赖压缩为两步:首先用一次前向传播预测轨迹终点;然后基于终点通过线性插值构建粗骨架,再将所有轨迹点并行精修为最终平滑路径[5] - 精修阶段通过Cross-Attention引入视觉-语言上下文,确保轨迹遵守车道边界、规避障碍并响应语言指令[5] - 该架构将推理时延从361ms大幅降至48ms,节省了86%的推理时间,同时驾驶评分从90.66提升至91.01,实现了速度与精度的同步提升[6] - 这种并行精修的计算模式与理想自研芯片数据流架构所天然支持的高并行度高度适配[6]