基准框架
搜索文档
VLA-Arena:一个用于系统性评估VLA的开源基准框架
具身智能之心· 2025-12-31 08:50
研究背景与动机 - Vision-Language-Action模型正快速向通用机器人策略演进,已实现跨载体泛化、灵巧操作、指令跟随等多种能力 [1] - 当前对这类模型的能力边界、局限及失效模式缺乏定量理解,现有基准存在三大核心缺陷:静态任务设计、忽视安全性、偏重鲁棒性而非外推能力 [1][4] - VLA-Arena作为全面、可复现的基准框架被提出,核心目标是通过系统化设计,精准刻画VLA模型的能力前沿与失效机制 [1] 核心设计:结构化任务与基准框架 - 基准包含170个任务,按核心挑战分为四个维度,每个维度下的任务均覆盖L0-L2难度 [6] - 任务设计基于三个正交难度轴:任务结构轴、语言指令轴、视觉观察轴 [4][10] - 任务结构轴定义任务与训练分布的距离,分为L0(分布内技能)、L1(近分布泛化)、L2(远分布挑战)三级 [10] - 语言指令轴通过语义可控的词汇替换引入扰动,分为W0-W4五级,基于WordNet选择语义相近词替换指令中的关键语义槽 [10] - 视觉观察轴采用累积式视觉扰动层级,从自然变化到严重退化,分为V0-V4五级,逐步测试模型的视觉鲁棒性 [10] 关键组件与技术细节 - 基于BDDL扩展得到约束行为域定义语言,核心增强两点:支持动态物体定义、明确安全约束语法 [7][11] - 提供VLA-Arena-S/M/L数据集,按任务级别和轨迹数量划分,基于人类演示数据构建,并释放端到端工具链支持全流程 [8] - 语言扰动针对指令中的动词和名词,从WordNet选取语义距离为1的替换词 [11] - 视觉扰动各层级参数按特定分布采样,例如光照参数取自均匀分布U(-0.75,0.75),高斯噪声参数为N(μ=0, σ²=0.085) [11] 实验设计与主要发现 - 评估覆盖两大架构范式,包括自回归模型和连续动作生成模型 [12] - 评估指标包括成功率和累积成本,后者仅用于Safety维度,量化安全违规程度 [12] - 所有模型在L0训练任务上表现优异,但面对L1和L2任务时性能急剧退化,表明模型记忆优于泛化的强倾向 [14] - 模型对语言扰动普遍耐受,但对视觉扰动更脆弱,视角偏移和传感器噪声会造成严重性能损失 [15] - 当前模型难以将安全约束融入策略,存在安全-性能的矛盾权衡,成功完成复杂任务的模型往往伴随高安全违规成本 [16] - 静态干扰物比动态干扰物更具挑战性,在StaticDistractors L1任务中,部分模型成功率降至0% [19] - 所有模型在长程任务中完全失效,在L1和L2任务的成功率接近或为0,表明模型无法将原子技能链式组合 [19] - 增加L1数据或扩大L0任务覆盖范围,虽能提升近分布性能,但会损害远分布泛化能力 [17] - 与LIBERO基准对比,VLA-Arena的任务深度依赖语言理解,错误/无指令时性能下降52%-64%,证明其任务设计更注重语言-动作的语义接地 [22]