SwitchVLA - 财报，业绩电话会，研报，新闻

SwitchVLA

搜索文档

自动驾驶之心· 2025-06-24 10:54

核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题通过执行感知机制和轻量化网络架构实现高效任务切换无需额外采集数据 [3][5][12] - 方法在单任务性能上与主流模型(如π0 3 3B)相当参数量仅0 27B 在任务切换场景下成功率显著超越现有SOTA [20][21] - 技术方案包含三方面创新任务切换表示方法(上一任务+当前任务+阶段状态) 轻量化VLM主干网络(Florence-2-base 0 23B) 以及基于阶段定义的数据采样算法 [12][13][15][16] 背景与问题定义 - 当前基于模仿学习(IL)的VLA模型在多任务训练时存在独立采集缺陷任务A结束状态与任务B开始状态需严格匹配才能切换 [5] - 实际应用场景(如便利店)存在动态指令变更需求现有方法无法处理"执行中途切换任务"的情况导致成功率骤降(如π0在Mid Switch场景仅8 3%成功率) [5][20][21] - 传统解决方案存在三大局限大模型规划存在算力瓶颈(需100ms内响应) 数据采集方法不可扩展基于规则的方法缺乏智能性 [8][10] 方法论任务切换表示 - 用三元组(上一任务+当前任务+上一任务阶段)替代传统任务描述输入通过token拼接实现多模态特征融合 [12][13] - 将任务阶段简化为三类接触物品前(forward) 接触中(rollback) 接触后(advance) 分别对应不同动作策略 [15] 模型架构 - 采用Florence-2-base作为主干VLM 参数量0 23B 支持实时推理 [13] - 设计Instruction & Contact Aggregator模块整合任务切换特征机器人状态和动作噪声 [13] 训练创新 - 无需额外采集数据通过时间逆序数据生成rollback动作通过状态插值生成advance动作 [16] - 提出随机采样算法根据任务切换表示动态分配对应动作类型保持方法可扩展性 [16] 实验结果性能对比 - 单任务场景成功率93% 与π0(92 3%)相当参数量仅为后者8 2% [20][21] - 任务切换场景在Early/Mid/Late Switch阶段成功率分别达93 5%/50 9%/68 7% 显著高于π0(40 7%/8 3%/10 2%) [21] - 长任务链测试在A→B→C→D→E→F序列中仿真环境成功率75% 真机环境54% 其他方法均为0% [21] 失败分析 - 主要解决Mid Switch阶段失败问题成功率从基准方法8 3%提升至50 9% [20][21] - 在Workstation 2测试中 Late Switch阶段成功率96 5% 较π0(64 6%)提升49% [21] 应用展望 - 计划部署于天工人形机器人结合"慧思开物"平台赋能工业柔性生产和商业服务 [23] - 未来方向包括提升复杂任务随机应变能力实现高精度丝滑操作(当前真机任务链成功率最高83 3%) [21][23]

SwitchVLA：无需额外数据采集，即可实时动态任务切换的轻量化VLA模型

具身智能之心· 2025-06-23 21:54

核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题，通过执行感知机制、轻量化网络架构(0.27B参数)及新型训练范式实现无需额外数据采集的高效任务切换能力[3][5][6] - 在单任务性能持平SOTA模型(如π0的3.3B参数)的同时，任务切换成功率显著提升：仿真环境中长串任务(A->...->F)成功率50%-83.3%，真机实验达54.2%-95.6%，远超现有方法(对比π0的0%)[16][17] 背景与问题定义 - 当前多任务VLA依赖独立采集的离散任务数据，导致任务切换时需严格匹配开始/结束状态，无法应对实时指令变更(如便利店场景中用户中途更改需求)[5] - 现有解决方案存在三大局限：大模型规划延迟(>100ms)、模仿学习需补采连接数据(成本高)、基于规则方法缺乏扩展性[6] 方法创新 1 任务切换表示 - 用"上一任务+当前任务+上一任务阶段(接触前/中/后)"替代传统任务描述输入，通过token拼接实现多模态融合[8][9] 2 模型架构 - 采用轻量级Florence-2-base VLM(0.23B)作为主干网络，结合Instruction & Contact Aggregator模块实现实时阶段感知[9][12] 3 训练流程 - 将任务简化为三阶段并定义对应动作：接触前(forward)、接触中(rollback)、接触后(advance)[12] - 创新数据采样算法：利用时间逆序数据生成rollback动作，通过状态插值生成advance动作，避免额外数据采集[13] 实验结果 - 在8个真机/仿真任务测试中，SwitchVLA在早期切换(Early Switch)场景成功率93.5%，远超π0(40.7%)和Open VLA-OFT(40.6%)[16][17] - 失败分析显示其有效解决四大失败类型：无切换(No Switch)成功率99.3%、中期切换(Mid Switch)75%、晚期切换(Late Switch)94.4%[16][17] 应用展望 - 计划部署于"天工"人形机器人，结合"慧思开物"平台赋能工业柔性生产和商业服务，实现高精度操作与快速响应能力[18][19]