InformationFusion期刊发表:Touch100k用语言解锁触觉感知新维度
机器人大讲堂·2025-06-08 16:47
触觉在提升机器人的感知与交互能力方面占据关键地位。当前触觉领域主要聚焦于视觉和触觉模态,而对语言 模态的探索较为有限。北京交通大学计算机学院联合北京邮电大学人工智能学院方斌教授团队、腾讯微信 AI 团队 发布了 首个大规模触觉、多粒度语言、视觉三模态数据集 Touch100 k ,并提出 TLV-Link 预训练方 法,为材料属性识别和抓取预测任务提供了高效的触觉表示能力,特别是在零样本触觉理解方面取得显著进展 ,为触觉领域注入了新的活力。论文 [1] 已被 Information Fusion (SCI 1 区,影响因子 14.8) 。 图 2 Touch100k 数据集的构建过程 ▍ TLV-Link: 用于触觉表征的多模态预训练方法 基于Touch100k数据集,研究团队提出了一种用于Gel S ight触觉表征的多模态联合学习方法,名为 TLV- Link 。TLV-Link包括两个阶段:用于触觉编码的课程表示和模态对齐。在课程表示阶段,方法采用"教师- 学生"课程范式,其中经过充分训练的视觉编码器作为教师模型,将知识传递给学生模型,即触觉编码器。具 体而言,用于触觉编码的课程表示被定义为视觉表示和触 ...