Workflow
ForceVLA:通过力感知MoE增强接触丰富操作的VLA模型
具身智能之心·2025-06-18 18:41

研究背景与问题提出 - 视觉-语言-动作(VLA)模型在机器人操作领域推动通用机器人发展,但处理接触丰富任务时存在局限性,尤其在视觉遮挡或动态不确定性情况下表现不佳[4] - 现有VLA模型依赖视觉和语言线索,忽略力传感模态,导致在插入、工具使用或装配等任务中行为脆弱或失败[4] - 不同任务阶段需要不同形式的力调制,如精细抓取、受控插入和顺应性表面接触,现有方法缺乏感知和适应动态变化的机制[4] 核心创新点 - ForceVLA框架将外部力传感作为VLA系统中的一等模态,引入FVLMoE融合模块动态集成视觉-语言嵌入与实时6轴力反馈[6] - FVLMoE模块通过门控机制计算专家子网络的动态路由权重,专门处理不同模态,实现力、视觉和语言特征的动态处理和深度集成[7][8] - ForceVLA-Data数据集包含五个接触丰富操作任务的同步视觉、本体感受和力-扭矩信号,共244条轨迹和14万个同步时间步[9][15] 方法细节 - ForceVLA基于π₀框架构建,集成视觉、语言、本体感受和6轴力反馈,通过条件流匹配模型生成动作[11] - FVLMoE模块将6轴力-扭矩数据转换为力token embedding,与视觉-语言特征连接后输入模块,通过稀疏混合专家层动态路由[12] - 数据采集使用Flexiv Rizon 7-DOF机械臂,配备Dahuan自适应夹具和两个RGB-D摄像头,通过Quest3 VR界面进行人类遥操作[15] 实验与结果 - ForceVLA在五个接触丰富操作任务上的平均成功率为60.5%,显著优于不使用力反馈的π₀-base模型(37.3%)[25] - 在黄瓜削皮任务中,ForceVLA平均削皮长度达14.12厘米,仅需7次strokes即可完成,优于To-base w/F的13.17厘米和10次strokes[19] - 在视觉遮挡场景下ForceVLA成功率高达90%,在五种挑战性实验条件下平均成功率达63.78%[20][22][25] - 消融研究显示ForceVLA通过FVLMoE模块实现的自适应融合成功率达80%,显著高于晚期融合(60%)和早期融合(55%)[23][26] - 多任务联合训练中ForceVLA平均成功率达67.5%,在插头插入任务中成功率100%,瓶子按压和白板擦拭任务达80%[27]