研究背景与动机 - 当前视觉-语言-动作模型在LIBERO等基准测试中取得了接近完美的成功率,但其在真实多变环境下的稳定性和可靠性存疑 [2][4] - 高分模型可能仅仅是过拟合于理想的训练环境,而非真正具备多模态理解能力 [4] - 行业缺乏系统性评估模型在真实变化下泛化性能的基准 [4] 研究方法与框架 - 研究团队提出LIBERO-Plus基准,从物体摆放、相机视角、机器人初始姿态、语言指令、光照条件、背景贴图、传感器噪声七个维度对模型进行泛化性能测试 [4] - 该基准覆盖7大扰动维度、21项子类、5个难度等级,具备全面性和细粒度特性 [2][36] - 框架采用自动化方法大规模生成测试任务,并提出了“组合泛化差距”的概念以量化模型在组合扰动下的性能表现 [29][36] 主要研究发现 - 模型对扰动存在显著的整体脆弱性,在各维度扰动下性能均下降,尤其对相机视角与机器人初始状态的变化最为敏感 [13] - 在相机视角扰动下,部分模型性能急剧下降,例如UniVLA从原始95.2%的成功率降至4.3%,绝对下降90.9个百分点 [13] - 模型对语言指令的依赖度有限,在空白指令测试中部分模型性能基本保持不变,表明其行为更接近视觉-动作模型 [16] - 当语言指令中的目标对象被替换时,模型仍持续执行原始任务,表明其缺乏跨对象指令跟随的强泛化能力 [18][19] - 模型在组合扰动下表现出持续的负向组合差距,表明当前模型缺乏组合泛化能力 [31][32] 模型性能比较 - 在单维度扰动测试中,OpenVLA-OFT模型在无扰动时达到97.1%的成功率,但在相机视角扰动下性能降至59.7%,绝对下降37.4个百分点 [13] - 采用增强数据训练的模型在LIBERO-Plus基准上取得了79.6%的平均成功率,显著优于基线,在相机视角扰动上提升了37.2个百分点 [38] - 不同模型架构和训练范式对鲁棒性影响显著,融合第一人称腕部摄像头、强调数据多样性、协同训练的模型展现出更优的泛化能力 [17][38] 行业影响与建议 - 研究揭示了当前VLA模型在视觉理解、语言交互、组合泛化等方面的鲁棒性缺陷,表明高分数不等于真智能 [2][41] - 行业不应再盲目追求在静态基准上“刷榜”,而应关注模型在真实多变环境下的稳定性 [41] - LIBERO-Plus提供了实时更新的双榜单系统,包括鲁棒性排行榜和原始性能榜,邀请社区共同参与测试以丰富性能图谱 [39][40]
VLA集体翻车?复旦&创智邱锡鹏教授团队提出LIBERO-Plus,揭示VLA脆弱性真相
具身智能之心·2025-10-29 08:03