别让vision拖累VLA中的action!
具身智能之心·2025-12-20 09:02

文章核心观点 - 针对当前视觉-语言-动作模型在训练中存在视觉输入与动作信号不匹配、高维视觉冗余信息干扰动作生成、以及训练后丢失语言理解能力等问题,提出了一种名为Mantis VLA的新模型架构[6][8][9] - 该模型通过解耦视觉预测渐进式预训练自适应时序集成三大核心技术,旨在减轻主干网络负担,提升动作生成的准确性与效率,并保留模型的语义理解与泛化能力[7][10][14] - 实验表明,Mantis在LIBERO基准测试中取得了最高的平均成功率96.7%,在真机实验中展现出优异的指令跟随与泛化能力,同时其自适应时序集成策略将推理成本降低了近50%[16][18][20][21] 研究背景与问题 - 当前VLA模型依赖低维稀疏的动作信号去监督高维密集的视觉输入,以训练十亿参数级的主干网络,这种不匹配导致模型表征能力未被充分利用[6] - 引入视觉预测机制时,高维视觉状态中的大量冗余信息会分散模型对动作预测的注意力,导致下游微调训练成本高、收敛速度慢[8] - 现有方法在机器人数据上训练后,往往忽视对主干网络的语言监督,导致模型丢失原有的语言理解与推理能力,难以完成复杂任务[9] 方法架构:Mantis VLA - 解耦视觉预测:引入独立的扩散DVF头与隐式动作查询,通过类似残差连接的结构让模型仅需捕捉帧间差异来重建未来帧,从而自动提取隐式动作,为动作生成提供针对性指导,减轻主干网络负担[10][13] - 渐进式预训练:分阶段引入视觉、语言和动作模态进行训练,避免模态间竞争,实现稳定优化,并引入额外多模态数据以保留主干模型的语义理解与推理能力[7][10] - 自适应时序集成:在推理阶段,动态判断图像中与指令相关的物体区块和视觉特征变化区块是否重叠,仅在需要精细操作时启用计算开销较高的时序集成,否则仅执行动作分块,以此平衡运动稳定性与计算成本[7][14] 实验性能分析 - 在LIBERO基准测试的4项任务中,Mantis在3项上表现更优,并取得了最高的平均成功率96.7%,优于其他基线方法如UnifiedVLA的95.5%和F1的95.7%[16][18] - 在LIBERO spatial任务上,与UnifiedVLA等传统视觉预测方法相比,Mantis的收敛速度显著更快[18] - 真机实验显示,在包含域内和域外指令的任务中,Mantis在指令跟随和泛化能力上均优于对比方法,后者对域外指令几乎无泛化能力[20] - 自适应时序集成策略在保持性能的前提下,将推理次数降低了近50%[21] 团队与资源 - 研究团队来自上海交通大学Deng Lab,由邓志杰助理教授领衔,团队规模包括4名博士生、11名硕士生及若干科研助理[23] - 实验室与清华大学、中国人民大学、UCSD等国内外知名团队保持合作,已在TPAMI、ICML、CVPR等顶级会议期刊发表近50篇论文,相关技术已应用于美团LongCat、阶跃星辰NextStep等业界系统[23] - 团队承担多项国家级及企业合作项目,拥有超过100张GPU的高性能计算资源[23]