想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑
量子位·2026-03-03 00:00

文章核心观点 - 南洋理工大学MMLab@NTU与中山大学的研究团队,系统性地从12个关键维度剖析了视觉-语言-动作模型的设计空间,并提出了一个从基础模型逐步构建高性能模型的“菜谱”式方法论 [1] - 基于此系统性探索产出的最终模型VLANeXt,在标准基准LIBERO及测试泛化性的LIBERO-plus上,全面超越了包括7B参数模型在内的各类SOTA方法,在面对未见扰动时成功率较此前最佳方法跃升了10% [1][22][23] 基础组件设计 - 独立且深度的策略模块:采用独立的Policy模块,而非复用文本token,并将策略模块加深至29层(与VLM骨干网络保持一致),性能显著提升 [9] - 动作分块:引入动作分块技术,采用分块大小为8(实验表明4以上即可),在提升推理速度的同时也提升了模型性能 [11] - 连续动作建模:使用流匹配等连续动作建模方法替代离散分类,获得了更强的性能 [11] - 更强的VLM基座:探索发现更强的VLM基座带来更强的VLA性能,最终采用Qwen3VL-2B模型替换了最初的LLaMA [11] - 柔性连接:在VLM与Policy模块的交互中,采用插入可学习Query作为“隐式缓冲”的Soft Connection方式,效果优于完全松散或紧密连接 [12] 感知要素设计 - 多视角输入:结合第三人称和腕部相机视角的输入,能提供互补的几何线索,大幅提升动作准确性 [14] - 本体感觉注入:将本体感觉(机器人自身状态)注入到VLM端,比不使用或直接注入Policy端效果更好,因其能在VLM层面更好地与视觉和语言信号融合 [14] - 本体感觉建模:采用简单的线性投影将本体感觉加入VLM侧已足够,复杂的Transformer建模可能导致训练不稳定 [15] - 时序历史观察:研究发现冗余的时序观察历史并未带来提升,可能引入噪声,因此维持仅使用当前帧图像的设计 [14] 动作建模的额外视角 - 频域建模辅助损失:在动作建模中引入基于离散余弦变换的频域对齐辅助损失,将动作生成视为一个时间整体进行学习,几乎不增加训练开销却有效提升了预测效果 [16] - 世界模型的取舍:虽然预测未来图像的世界模型建模能带来性能提升,但会导致训练时间飙升近三倍,出于效率考量,在此实用配方中未采用 [16] 模型性能表现 - 基准测试全面领先:在LIBERO基准的Spatial、Object、Goal、Long四个任务上,VLANeXt平均成功率分别达到92.8%、82.1%、72.7%、72.8%,综合表现超越包括UniVLA、FLOWER、OpenVLA-OFT等在内的所有基线模型 [21][22] - 泛化能力显著提升:在LIBERO-plus基准上,面对未见过的光照、背景、相机位姿等系统性扰动,VLANeXt的平均成功率达到80.1%,较此前最佳方法大幅跃升10% [22][23] - 真实部署表现优异:在真实机器人任务中,VLANeXt在单臂任务(如清理桌面、开抽屉)上表现出色,在未经专门预训练的情况下,也展现出一定的跨形态适应能力,能完成双臂协作任务(如抬起篮子) [24][25]

想入局VLA却不知从何下手?NTU&中大开源「终极菜谱」:从基座到频域建模,每一步都有实验支撑 - Reportify