动静结合的多传感器统一触觉表征学习

搜索文档
人大北邮等团队解视触觉感知统一难题,模型代码数据集全开源 | ICLR 2025
量子位· 2025-03-14 19:22
文章核心观点 - 从动静结合角度构建统一的多传感器触觉表征空间,提出TacQuad数据集和AnyTouch学习框架,学习适用于各种任务的通用触觉表征,有望建立视触觉感知标准化学习范式 [21] 视触觉传感器潜力与挑战 - 赋予机器人类似人类的触觉感知能力是具身智能重要研究方向,视触觉传感器因高分辨率展现巨大潜力 [1] - 构建基于视触觉传感器的触觉感知系统面临挑战,传感器种类多且缺乏统一标准,异构性制约系统泛化和鲁棒性,当前模型欠缺对动态触觉细节的捕捉能力 [4] TacQuad数据集 - 缺乏显式配对多传感器数据的可靠触觉数据集,导致不同视触觉传感器采集的数据难迁移使用 [6] - 采集配对的多传感器多模态触觉数据集TacQuad,提供含文本描述和视觉图像的配对数据,支持构建统一的多传感器触觉表征空间 [7] - 挑选GelSight Mini、DIGIT、DuraGel、Tac3D四种触觉传感器,用粗粒度和细粒度两种方法采集两组多传感器配对数据,每次触觉接触记录视觉图像并由GPT - 4o生成触觉属性描述,还利用GPT - 4o为多个开源触觉数据集生成或扩展文本描述 [7][8] - 细粒度时空对齐数据含25个物体的17524个接触帧,用于细粒度触觉任务;粗粒度空间对齐数据含99个物体的55082个接触帧,用于跨传感器匹配任务 [10] AnyTouch学习框架 - 受人类触觉综合体验启发,提出动静结合的多传感器统一触觉表征学习框架AnyTouch,从静态和动态感知结合角度学习统一的多传感器触觉表征 [8] - 采用多层级架构,第一阶段关注像素级触觉细节,第二阶段学习传感器无关的语义级特征,使用通用传感器Token整合存储传感器信息 [12] - 掩码图像/视频建模采用掩码自编码器技术,训练模型捕捉像素级细节,重建动态视频时引入未来帧预测任务 [14] - 多模态对齐通过触觉 - 视觉 - 文本多模态对齐整合多传感器触觉数据,以文本模态为锚点,选择最大数据子集对齐 [14] - 跨传感器匹配引入新任务,确定输入的触觉图像或视频是否采集自同一对象同一位置,对相同触觉信息的表示聚类,形成统一的多传感器表征空间 [14] 实验与分析 - 将GelSight、GelSlim、DIGIT和GelSight Mini的数据整合到AnyTouch训练中,与未接触触觉数据的CLIP模型相比,使用GelSight数据训练显著提升模型性能,整合其他传感器数据后模型在未见数据集上性能提升 [13] - 对比CLIP模型和逐步引入各组件的AnyTouch模型,跨传感器匹配任务使来自不同传感器的触觉表征在共享空间中完全混合,转向更通用的跨传感器信息 [16] - AnyTouch在已见与未见传感器的数据集上均优于现有方法,证明其在静态感知能力上的优势 [18] - 在细粒度倾倒任务实验中,结果表明从动静结合角度学习统一的多传感器表示对完成各种任务至关重要 [20]