Workflow
InformationFusion期刊发表:Touch100k用语言解锁触觉感知新维度
机器人大讲堂·2025-06-08 16:47

触觉多模态研究突破 - 北京交通大学联合腾讯微信AI团队发布全球首个触觉-语言-视觉三模态数据集Touch100k,包含10万组触觉图像、视觉图像及多粒度语言描述,突破传统触觉研究仅聚焦视觉模态的局限[1][2] - 创新提出TLV-Link预训练方法,采用"教师-学生"课程范式实现视觉编码器向触觉编码器的知识迁移,模态对齐阶段通过对比学习融合文本特征,显著提升零样本触觉理解能力[6][7] - 实验显示TLV-Link在材料属性识别任务中准确率达93.1%(硬/软分类)和84.7%(粗糙/光滑分类),机器人抓取预测任务准确率94.5%,较基准模型最高提升4.2个百分点[9] 技术实现路径 - 数据集构建整合Touch and Go、VisGel等公开数据集接触帧,通过人机协作生成词组/句子级触觉描述,形成标准化三模态数据架构[2][5] - TLV-Link课程表示阶段动态调整视觉-触觉特征权重(初始依赖教师模型70%权重,随训练逐步降低至30%),模态对齐阶段采用文本编码器生成融合特征[6][9] - t-SNE可视化证实触觉表征在二元分类任务中区分度显著,但多分类任务泛化能力待提升,显示当前方法在复杂操作场景的局限性[9][10] 行业应用价值 - 研究填补触觉领域语言模态空白,使机器人具备"表述"触觉信息的能力,为人机交互、医疗机器人触觉反馈提供新技术路径[1][11] - GelSight传感器专用表征学习方法可适配工业机器人精确抓取、医疗手术力反馈等场景,实验显示抓取预测准确率较现有最优模型提升3.9%[9][11] - 成果发表于SCI一区期刊《Information Fusion》(影响因子14.8),数据集与代码已开源,推动行业建立触觉多模态研究基准[1][12]