核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题,通过执行感知机制、轻量化网络架构(0.27B参数)及新型训练范式实现无需额外数据采集的高效任务切换能力[3][5][6] - 在单任务性能持平SOTA模型(如π0的3.3B参数)的同时,任务切换成功率显著提升:仿真环境中长串任务(A->...->F)成功率50%-83.3%,真机实验达54.2%-95.6%,远超现有方法(对比π0的0%)[16][17] 背景与问题定义 - 当前多任务VLA依赖独立采集的离散任务数据,导致任务切换时需严格匹配开始/结束状态,无法应对实时指令变更(如便利店场景中用户中途更改需求)[5] - 现有解决方案存在三大局限:大模型规划延迟(>100ms)、模仿学习需补采连接数据(成本高)、基于规则方法缺乏扩展性[6] 方法创新 1 任务切换表示 - 用"上一任务+当前任务+上一任务阶段(接触前/中/后)"替代传统任务描述输入,通过token拼接实现多模态融合[8][9] 2 模型架构 - 采用轻量级Florence-2-base VLM(0.23B)作为主干网络,结合Instruction & Contact Aggregator模块实现实时阶段感知[9][12] 3 训练流程 - 将任务简化为三阶段并定义对应动作:接触前(forward)、接触中(rollback)、接触后(advance)[12] - 创新数据采样算法:利用时间逆序数据生成rollback动作,通过状态插值生成advance动作,避免额外数据采集[13] 实验结果 - 在8个真机/仿真任务测试中,SwitchVLA在早期切换(Early Switch)场景成功率93.5%,远超π0(40.7%)和Open VLA-OFT(40.6%)[16][17] - 失败分析显示其有效解决四大失败类型:无切换(No Switch)成功率99.3%、中期切换(Mid Switch)75%、晚期切换(Late Switch)94.4%[16][17] 应用展望 - 计划部署于"天工"人形机器人,结合"慧思开物"平台赋能工业柔性生产和商业服务,实现高精度操作与快速响应能力[18][19]
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
具身智能之心·2025-06-23 21:54