核心观点 - 由至简动力、北京大学、香港中文大学联合提出的DeepVision-VLA框架,通过为视觉语言动作模型安装“即插即用”的视觉增强器,解决了模型在深层动作预测时对关键视觉区域依赖下降的问题,从而显著提升了机器人操作的精度与成功率 [4][6][7] 技术问题与发现 - 研究发现,现有视觉语言动作模型在深层进行动作预测时,对关键视觉区域的依赖会持续下降,导致模型在任务后期“走神”或“看不清”,而非初始视觉编码能力不足 [3][4][7] - 通过系统分析OpenVLA、π、QwenVLA-OFT等代表性模型,发现浅层动作预测高度依赖任务关键视觉信息,但随着网络层数加深,即使移除关键视觉区域,对动作预测的影响也显著减弱,表明视觉信息在深层被“低利用化” [16][19][23][25] 解决方案:DeepVision-VLA框架 - 框架核心包含两个关键设计:视觉-语言混合Transformer用于在深层注入高质量视觉特征,以及动作引导的视觉剪枝策略用于筛选高价值视觉信息 [7][24][26] - VL-MoT设计让VLA模型的深层与高分辨率视觉专家共享注意力,使增强的视觉表征在深层动作预测阶段直接参与,而非停留在浅层输入融合 [24][26][28][31] - AGVP策略利用VLA浅层保留的强任务视觉定位能力,生成动作引导的视觉响应图,仅筛选并传递最相关的视觉信息至深层,以降低噪声与计算成本 [24][29][33][34][42] 性能表现 - 在RLBench模拟器的10个机器人操作任务上,DeepVision-VLA达到83%的平均成功率,相比基线Pi0.5提升18个百分点 [4][8][35] - 在真实世界复杂操作任务中,模型取得91.7%的平均成功率,相比基线Pi0.5提升7.5个百分点,在具体任务如“堆叠可乐罐”、“写字母S”、“将水果放入盘子”、“将可乐倒入瓶子”中表现优异 [4][8][40][43][44] - 在未见过的背景和光照条件等零样本泛化测试中,模型性能下降幅度显著小于基线,例如在背景变化下任务成功率仅下降5%,而基线下降18%,证明其增强了模型对关键视觉结构的稳定提取能力而非单纯的任务记忆 [4][46][47][48]
VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%
量子位·2026-03-25 07:52