Feature Linear Adaptation(FLA)
搜索文档
VLA 模型的泛化能力超乎你的想象:换个新相机和视角推理也能轻松搞定!
具身智能之心· 2025-12-04 11:10
文章核心观点 - 视觉-语言-动作模型在面临新相机视角等视觉扰动时性能下降的核心原因是其空间建模组件存在对齐偏差,而非物理建模能力不足 [2][9] - 通过一种极轻量级的单次自适应框架,仅更新少量参数即可重新校准视觉表征,从而显著恢复模型的视角泛化能力,这揭示了预训练VLA模型中存在大量未被挖掘的鲁棒性潜力 [3][14] VLA模型的泛化性困境 - VLA模型是具身智能核心技术,能将视觉观测和语言指令转化为机器人动作序列,在训练数据中表现优异 [4] - 然而,当面临未见过的相机视角、光照变化等视觉扰动时,模型性能会急剧下降,这是其落地的关键瓶颈 [6] - 现有提升鲁棒性的方法主要分为两类:成本高昂的数据中心范式和对任务无关因素敏感的表示中心范式,且参数高效微调技术极少直接用于优化视觉模块 [7][8] 空间建模是VLA泛化的核心瓶颈 - 研究将VLA模型解耦为空间建模与物理建模两个独立组件,并指出性能退化的主因是空间建模失准 [9] - 空间建模负责从图像构建物体空间关系,视角变化会导致其输出的空间表示失真;物理建模负责高层推理和动作生成,其任务逻辑不受视角变化影响 [12][15] - 通过嵌入漂移分析验证:新视角的视觉token与训练视角的token在嵌入空间中存在严重域间隙,轻量级适配后能使其对齐,性能随之恢复 [13] 方法设计:轻量级单次适配框架 - 提出单次适配框架,仅对视觉模块进行轻量级调整,语言编码器和解码器保持固定 [16][17] - 特征token调制是一种极简机制,仅用两个可学习参数向量对视觉token进行全局仿射变换,引入4K可训练参数,能将Libero数据集的视角准确率从48.5%提升至87.1% [3][18] - 特征线性自适应在FTM基础上,对ViT编码器的线性层进行低秩更新,仅引入470万参数,在实验中实现了90.8%的平均成功率,达到甚至超越了全量LoRA微调的效果 [3][19] 实验验证与结果 - 实验在Libero-V基准上进行,该基准引入了相机视角变化、光照变化、背景纹理扰动和传感器噪声四种受控视觉扰动 [23][27] - 在新相机视角任务中,FLA取得了90.8%的平均成功率,超越了LoRA微调的90.3%;FTM以87.2%的成功率接近LoRA微调,且仅用4K参数 [24][26] - 在多种视觉扰动下,FLA的平均成功率达94.8%,与LoRA微调持平;FTM以90.5%的成功率远超Prompt学习的75.1% [30][31] - 参数效率极高:FTM仅用0.004M参数达到90.5%成功率;FLA用4.70M参数达到94.8%成功率,远低于LoRA微调所需的467M参数 [32] - 真实世界实验表明,通过单次FLA适配,模型能在新相机视角下成功完成所有操作任务,有效弥合仿真与现实的域间隙 [33] 方法优势与结论 - FLA/FTM方法聚焦视觉模块的轻量级适配,无需修改模型架构或重新训练,是更高效、更实用的解决方案 [20] - 该方法精准定位了模型泛化性的瓶颈,并提出了高效解决方案,证明了针对性、极小化的视觉自适应足以恢复模型的视角泛化能力 [3][34]