SwitchVLA：无需额外数据采集，即可实时动态任务切换的轻量化VLA模型

核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题通过执行感知机制和轻量化网络架构实现高效任务切换无需额外采集数据 [3][5][12] - 方法在单任务性能上与主流模型(如π0 3 3B)相当参数量仅0 27B 在任务切换场景下成功率显著超越现有SOTA [20][21] - 技术方案包含三方面创新任务切换表示方法(上一任务+当前任务+阶段状态) 轻量化VLM主干网络(Florence-2-base 0 23B) 以及基于阶段定义的数据采样算法 [12][13][15][16] 背景与问题定义 - 当前基于模仿学习(IL)的VLA模型在多任务训练时存在独立采集缺陷任务A结束状态与任务B开始状态需严格匹配才能切换 [5] - 实际应用场景(如便利店)存在动态指令变更需求现有方法无法处理"执行中途切换任务"的情况导致成功率骤降(如π0在Mid Switch场景仅8 3%成功率) [5][20][21] - 传统解决方案存在三大局限大模型规划存在算力瓶颈(需100ms内响应) 数据采集方法不可扩展基于规则的方法缺乏智能性 [8][10] 方法论任务切换表示 - 用三元组(上一任务+当前任务+上一任务阶段)替代传统任务描述输入通过token拼接实现多模态特征融合 [12][13] - 将任务阶段简化为三类接触物品前(forward) 接触中(rollback) 接触后(advance) 分别对应不同动作策略 [15] 模型架构 - 采用Florence-2-base作为主干VLM 参数量0 23B 支持实时推理 [13] - 设计Instruction & Contact Aggregator模块整合任务切换特征机器人状态和动作噪声 [13] 训练创新 - 无需额外采集数据通过时间逆序数据生成rollback动作通过状态插值生成advance动作 [16] - 提出随机采样算法根据任务切换表示动态分配对应动作类型保持方法可扩展性 [16] 实验结果性能对比 - 单任务场景成功率93% 与π0(92 3%)相当参数量仅为后者8 2% [20][21] - 任务切换场景在Early/Mid/Late Switch阶段成功率分别达93 5%/50 9%/68 7% 显著高于π0(40 7%/8 3%/10 2%) [21] - 长任务链测试在A→B→C→D→E→F序列中仿真环境成功率75% 真机环境54% 其他方法均为0% [21] 失败分析 - 主要解决Mid Switch阶段失败问题成功率从基准方法8 3%提升至50 9% [20][21] - 在Workstation 2测试中 Late Switch阶段成功率96 5% 较π0(64 6%)提升49% [21] 应用展望 - 计划部署于天工人形机器人结合"慧思开物"平台赋能工业柔性生产和商业服务 [23] - 未来方向包括提升复杂任务随机应变能力实现高精度丝滑操作(当前真机任务链成功率最高83 3%) [21][23]