想入局VLA却不知从何下手？NTU&中大开源「终极菜谱」：从基座到频域建模，每一步都有实验支撑

文章核心观点 - 南洋理工大学MMLab@NTU与中山大学的研究团队，系统性地从12个关键维度剖析了视觉-语言-动作模型的设计空间，并提出了一个从基础模型逐步构建高性能模型的“菜谱”式方法论 [1] - 基于此系统性探索产出的最终模型VLANeXt，在标准基准LIBERO及测试泛化性的LIBERO-plus上，全面超越了包括7B参数模型在内的各类SOTA方法，在面对未见扰动时成功率较此前最佳方法跃升了10% [1][22][23] 基础组件设计 - 独立且深度的策略模块：采用独立的Policy模块，而非复用文本token，并将策略模块加深至29层（与VLM骨干网络保持一致），性能显著提升 [9] - 动作分块：引入动作分块技术，采用分块大小为8（实验表明4以上即可），在提升推理速度的同时也提升了模型性能 [11] - 连续动作建模：使用流匹配等连续动作建模方法替代离散分类，获得了更强的性能 [11] - 更强的VLM基座：探索发现更强的VLM基座带来更强的VLA性能，最终采用Qwen3VL-2B模型替换了最初的LLaMA [11] - 柔性连接：在VLM与Policy模块的交互中，采用插入可学习Query作为“隐式缓冲”的Soft Connection方式，效果优于完全松散或紧密连接 [12] 感知要素设计 - 多视角输入：结合第三人称和腕部相机视角的输入，能提供互补的几何线索，大幅提升动作准确性 [14] - 本体感觉注入：将本体感觉（机器人自身状态）注入到VLM端，比不使用或直接注入Policy端效果更好，因其能在VLM层面更好地与视觉和语言信号融合 [14] - 本体感觉建模：采用简单的线性投影将本体感觉加入VLM侧已足够，复杂的Transformer建模可能导致训练不稳定 [15] - 时序历史观察：研究发现冗余的时序观察历史并未带来提升，可能引入噪声，因此维持仅使用当前帧图像的设计 [14] 动作建模的额外视角 - 频域建模辅助损失：在动作建模中引入基于离散余弦变换的频域对齐辅助损失，将动作生成视为一个时间整体进行学习，几乎不增加训练开销却有效提升了预测效果 [16] - 世界模型的取舍：虽然预测未来图像的世界模型建模能带来性能提升，但会导致训练时间飙升近三倍，出于效率考量，在此实用配方中未采用 [16] 模型性能表现 - 基准测试全面领先：在LIBERO基准的Spatial、Object、Goal、Long四个任务上，VLANeXt平均成功率分别达到92.8%、82.1%、72.7%、72.8%，综合表现超越包括UniVLA、FLOWER、OpenVLA-OFT等在内的所有基线模型 [21][22] - 泛化能力显著提升：在LIBERO-plus基准上，面对未见过的光照、背景、相机位姿等系统性扰动，VLANeXt的平均成功率达到80.1%，较此前最佳方法大幅跃升10% [22][23] - 真实部署表现优异：在真实机器人任务中，VLANeXt在单臂任务（如清理桌面、开抽屉）上表现出色，在未经专门预训练的情况下，也展现出一定的跨形态适应能力，能完成双臂协作任务（如抬起篮子） [24][25]