InformationFusion期刊发表：Touch100k用语言解锁触觉感知新维度

触觉多模态研究突破 - 北京交通大学联合腾讯微信AI团队发布全球首个触觉-语言-视觉三模态数据集Touch100k，包含10万组触觉图像、视觉图像及多粒度语言描述，突破传统触觉研究仅聚焦视觉模态的局限[1][2] - 创新提出TLV-Link预训练方法，采用"教师-学生"课程范式实现视觉编码器向触觉编码器的知识迁移，模态对齐阶段通过对比学习融合文本特征，显著提升零样本触觉理解能力[6][7] - 实验显示TLV-Link在材料属性识别任务中准确率达93.1%（硬/软分类）和84.7%（粗糙/光滑分类），机器人抓取预测任务准确率94.5%，较基准模型最高提升4.2个百分点[9] 技术实现路径 - 数据集构建整合Touch and Go、VisGel等公开数据集接触帧，通过人机协作生成词组/句子级触觉描述，形成标准化三模态数据架构[2][5] - TLV-Link课程表示阶段动态调整视觉-触觉特征权重（初始依赖教师模型70%权重，随训练逐步降低至30%），模态对齐阶段采用文本编码器生成融合特征[6][9] - t-SNE可视化证实触觉表征在二元分类任务中区分度显著，但多分类任务泛化能力待提升，显示当前方法在复杂操作场景的局限性[9][10] 行业应用价值 - 研究填补触觉领域语言模态空白，使机器人具备"表述"触觉信息的能力，为人机交互、医疗机器人触觉反馈提供新技术路径[1][11] - GelSight传感器专用表征学习方法可适配工业机器人精确抓取、医疗手术力反馈等场景，实验显示抓取预测准确率较现有最优模型提升3.9%[9][11] - 成果发表于SCI一区期刊《Information Fusion》（影响因子14.8），数据集与代码已开源，推动行业建立触觉多模态研究基准[1][12]