Workflow
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
自动驾驶之心·2025-06-24 10:54

核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题 通过执行感知机制和轻量化网络架构实现高效任务切换 无需额外采集数据 [3][5][12] - 方法在单任务性能上与主流模型(如π0 3 3B)相当 参数量仅0 27B 在任务切换场景下成功率显著超越现有SOTA [20][21] - 技术方案包含三方面创新 任务切换表示方法(上一任务+当前任务+阶段状态) 轻量化VLM主干网络(Florence-2-base 0 23B) 以及基于阶段定义的数据采样算法 [12][13][15][16] 背景与问题定义 - 当前基于模仿学习(IL)的VLA模型在多任务训练时存在独立采集缺陷 任务A结束状态与任务B开始状态需严格匹配才能切换 [5] - 实际应用场景(如便利店)存在动态指令变更需求 现有方法无法处理"执行中途切换任务"的情况 导致成功率骤降(如π0在Mid Switch场景仅8 3%成功率) [5][20][21] - 传统解决方案存在三大局限 大模型规划存在算力瓶颈(需100ms内响应) 数据采集方法不可扩展 基于规则的方法缺乏智能性 [8][10] 方法论 任务切换表示 - 用三元组(上一任务+当前任务+上一任务阶段)替代传统任务描述输入 通过token拼接实现多模态特征融合 [12][13] - 将任务阶段简化为三类 接触物品前(forward) 接触中(rollback) 接触后(advance) 分别对应不同动作策略 [15] 模型架构 - 采用Florence-2-base作为主干VLM 参数量0 23B 支持实时推理 [13] - 设计Instruction & Contact Aggregator模块 整合任务切换特征 机器人状态和动作噪声 [13] 训练创新 - 无需额外采集数据 通过时间逆序数据生成rollback动作 通过状态插值生成advance动作 [16] - 提出随机采样算法 根据任务切换表示动态分配对应动作类型 保持方法可扩展性 [16] 实验结果 性能对比 - 单任务场景 成功率93% 与π0(92 3%)相当 参数量仅为后者8 2% [20][21] - 任务切换场景 在Early/Mid/Late Switch阶段成功率分别达93 5%/50 9%/68 7% 显著高于π0(40 7%/8 3%/10 2%) [21] - 长任务链测试 在A→B→C→D→E→F序列中仿真环境成功率75% 真机环境54% 其他方法均为0% [21] 失败分析 - 主要解决Mid Switch阶段失败问题 成功率从基准方法8 3%提升至50 9% [20][21] - 在Workstation 2测试中 Late Switch阶段成功率96 5% 较π0(64 6%)提升49% [21] 应用展望 - 计划部署于天工人形机器人 结合"慧思开物"平台赋能工业柔性生产和商业服务 [23] - 未来方向包括提升复杂任务随机应变能力 实现高精度丝滑操作(当前真机任务链成功率最高83 3%) [21][23]