Workflow
告别 “专家垄断”!AdaMoE 破解 VLA 模型效率与精度两难问题
具身智能之心·2025-10-21 08:03

文章核心观点 - 上海交通大学等机构提出的AdaMoE架构通过解耦专家选择与权重分配,解决了视觉-语言-动作模型在机器人操控中面临的计算效率与任务精度难以兼顾的困境 [1] - 该架构在不增加计算负担的前提下,显著提升了任务成功率,仿真任务成功率提升近10%,真实场景操作成功率提升21.5% [1] - AdaMoE证明了机器人操控的精细度与效率并非单选题,为VLA模型的落地应用提供了新路径 [1][24] 传统VLA模型面临的挑战 - 传统模型想提升性能却受限于高昂的训练成本,收集精准的机器人演示数据困难,从头训练需耗费数百至上千GPU时 [2] - 模型在容量与效率间难以平衡,传统的密集模型需全参数激活,导致响应速度慢,而简化模型又会牺牲性能 [3] - 混合专家架构在VLA场景中出现“专家打架”问题,单一路由器同时负责专家选择和权重分配,难以兼顾负载均衡与任务精度 [5][11] AdaMoE的核心架构设计 - 设计直接继承预训练模型权重,无需从头训练,大幅降低了数据与计算成本 [8] - 采用稀疏激活策略,每次仅激活1个共享专家和1个路由专家,计算量仅为传统密集模型的1/5 [12] - 关键创新在于将路由模块与尺度适配器解耦,路由模块专司专家选择以实现负载均衡,尺度适配器独立调整专家贡献权重以保障任务精度 [12][17] - 共享专家负责通用基础动作,路由专家通过权重复制与微调专注于专项技能学习 [10] 实验验证与性能表现 - 在LIBERO和RoboTwin仿真基准上,AdaMoE平均成功率高达96.0%,优于传统密集模型的94.2%和传统MoE的94.9% [18][23] - 专家数量并非越多越好,实验表明4个专家(成功率96.0%)优于8个专家(成功率95.6%),体现了“少而精”的优势 [19] - 在真实世界ALOHA双臂机器人实验中,AdaMoE将平均成功率从50%提升至71.5%,尤其在“放透明杯子”任务中从40%提升至80% [22] - 解耦架构被证明优于耦合架构,AdaMoE(96.0%)在半解耦的CSMoE(95.5%)和传统MoE(94.9%)基础上实现了进一步提升 [18][21] 技术突破与行业意义 - 该研究为VLA模型指明了一条不依赖堆砌资源即可实现高效落地的技术路径 [24] - 架构实现了对预训练知识的有效利用、模型容量与计算效率的平衡以及专家间的协同优化 [26] - 证明了基于明确分工的协作方式是实现机器人高效操控的关键,对未来具身智能发展具有重要启示 [24]