为什么给机器人装上昂贵的触觉传感器,反而让它变笨了?
具身智能之心·2025-12-04 08:04

文章核心观点 - 当前机器人多模态学习的主流方法——特征拼接(Feature Concatenation)在处理传感器信息稀疏或互补的任务时存在根本缺陷,会导致性能下降甚至失败[3][7] - 提出了一种名为“组合策略”(Compositional Policies)的新框架,通过为每个传感器模态训练独立的专家策略,并在策略层面进行组合,有效解决了传统方法的局限性[9][12] - 新方法在模拟和真实世界的多项机器人操作任务中,性能显著优于传统的特征拼接方法和单模态策略,并具备模块化、增量学习和运行时鲁棒性等优势[29][33][34] 当前多模态机器人学习方法的局限性 - 主流方法:目前多采用特征拼接,即提取所有传感器的嵌入(embeddings),拼接成一个大向量后输入单一神经网络策略[5] - 根本缺陷一:稀疏信号被抑制:在处理如“在黑暗背包中找钥匙”这类任务时,偶尔出现的关键信号(如触觉)在统计上被视为“噪音”而被网络过滤掉,导致增加传感器反而降低性能[3][16] - 实验数据显示,在遮挡抓取任务中,仅使用RGB视觉的成功率为35%,而增加触觉数据后,采用特征拼接方法的成功率暴跌至5%[3][16] - 根本缺陷二:缺乏模块化:所有模态在特征层面紧密耦合,导致无法灵活添加或移除传感器[8][16] - 添加新传感器或移除故障传感器时,必须从头重新训练整个策略,成本高昂[16] - 单个传感器故障可能导致系统发生灾难性故障[16] 提出的解决方案:组合策略框架 - 核心思想:放弃特征级拼接,转向策略级组合。为每个感官模态(如RGB、触觉、点云)训练独立的专家策略,然后学习如何组合它们的动作预测[9][17] - 工作原理: - 模态特定专家:每个专家是一个基于扩散策略/能量模型的实例,专注于自己的感官流,互不干扰[17] - 模态内分解:在模态内部可进一步分解为互补的子策略(如视觉分为粗略几何和细粒度细节)[17] - 学习共识权重:通过一个路由器网络(Router)学习预测权重,动态决定每个模态对最终动作的影响程度[17] - 关键优势: - 解决稀疏性:每个专家学习自己的动作分布,稀疏模态(如触觉)的专家可以高度专业化,不被其他模态干扰[12] - 模块化设计:专家独立训练,添加新传感器只需训练新专家并与现有专家组合,无需重训整个系统[13] - 简单实现:在扩散模型中,组合多个策略对应于概率分布相乘,等同于简单的分数函数相加[13] 实验验证与性能结果 - 模拟环境(RLBench):在四个操作任务上,组合策略方法的平均成功率为66%,显著优于单模态策略的49%和特征拼接方法的56%[29] - 真实世界实验(UR5e机器人): - 遮挡记号笔抓取:组合策略成功率为65%,而仅RGB为35%,特征拼接方法仅为5%[34] - 勺子重定向:一种灵巧的手内操作任务,组合策略成功率为75%,特征拼接方法为21%[34] - 拼图插入:需要毫米级精度的任务,组合策略成功率为52%,特征拼接方法为40%[34] - 增量学习演示:完全独立训练RGB和触觉策略后,使用固定相等权重组合(无联合训练),成功完成了单独策略都无法处理的遮挡记号笔抓取任务[15][18] 系统的鲁棒性与自适应性 - 运行时扰动:在执行过程中突然抢走物体,机器人能适应并完成任务[21] - 传感器损坏:遮挡一个摄像头模拟故障时,路由器网络将权重转移到剩余功能传感器上,系统表现保持稳定[23] - 物体重新定位:移动任务相关物体后,策略能成功泛化到新位置[25]