为什么给机器人装上昂贵的触觉传感器，反而让它变笨了？

文章核心观点 - 当前机器人多模态学习的主流方法——特征拼接（Feature Concatenation）在处理传感器信息稀疏或互补的任务时存在根本缺陷，会导致性能下降甚至失败[3][7] - 提出了一种名为“组合策略”（Compositional Policies）的新框架，通过为每个传感器模态训练独立的专家策略，并在策略层面进行组合，有效解决了传统方法的局限性[9][12] - 新方法在模拟和真实世界的多项机器人操作任务中，性能显著优于传统的特征拼接方法和单模态策略，并具备模块化、增量学习和运行时鲁棒性等优势[29][33][34] 当前多模态机器人学习方法的局限性 - 主流方法：目前多采用特征拼接，即提取所有传感器的嵌入（embeddings），拼接成一个大向量后输入单一神经网络策略[5] - 根本缺陷一：稀疏信号被抑制：在处理如“在黑暗背包中找钥匙”这类任务时，偶尔出现的关键信号（如触觉）在统计上被视为“噪音”而被网络过滤掉，导致增加传感器反而降低性能[3][16] - 实验数据显示，在遮挡抓取任务中，仅使用RGB视觉的成功率为35%，而增加触觉数据后，采用特征拼接方法的成功率暴跌至5%[3][16] - 根本缺陷二：缺乏模块化：所有模态在特征层面紧密耦合，导致无法灵活添加或移除传感器[8][16] - 添加新传感器或移除故障传感器时，必须从头重新训练整个策略，成本高昂[16] - 单个传感器故障可能导致系统发生灾难性故障[16] 提出的解决方案：组合策略框架 - 核心思想：放弃特征级拼接，转向策略级组合。为每个感官模态（如RGB、触觉、点云）训练独立的专家策略，然后学习如何组合它们的动作预测[9][17] - 工作原理： - 模态特定专家：每个专家是一个基于扩散策略/能量模型的实例，专注于自己的感官流，互不干扰[17] - 模态内分解：在模态内部可进一步分解为互补的子策略（如视觉分为粗略几何和细粒度细节）[17] - 学习共识权重：通过一个路由器网络（Router）学习预测权重，动态决定每个模态对最终动作的影响程度[17] - 关键优势： - 解决稀疏性：每个专家学习自己的动作分布，稀疏模态（如触觉）的专家可以高度专业化，不被其他模态干扰[12] - 模块化设计：专家独立训练，添加新传感器只需训练新专家并与现有专家组合，无需重训整个系统[13] - 简单实现：在扩散模型中，组合多个策略对应于概率分布相乘，等同于简单的分数函数相加[13] 实验验证与性能结果 - 模拟环境（RLBench）：在四个操作任务上，组合策略方法的平均成功率为66%，显著优于单模态策略的49%和特征拼接方法的56%[29] - 真实世界实验（UR5e机器人）： - 遮挡记号笔抓取：组合策略成功率为65%，而仅RGB为35%，特征拼接方法仅为5%[34] - 勺子重定向：一种灵巧的手内操作任务，组合策略成功率为75%，特征拼接方法为21%[34] - 拼图插入：需要毫米级精度的任务，组合策略成功率为52%，特征拼接方法为40%[34] - 增量学习演示：完全独立训练RGB和触觉策略后，使用固定相等权重组合（无联合训练），成功完成了单独策略都无法处理的遮挡记号笔抓取任务[15][18] 系统的鲁棒性与自适应性 - 运行时扰动：在执行过程中突然抢走物体，机器人能适应并完成任务[21] - 传感器损坏：遮挡一个摄像头模拟故障时，路由器网络将权重转移到剩余功能传感器上，系统表现保持稳定[23] - 物体重新定位：移动任务相关物体后，策略能成功泛化到新位置[25]