Workflow
具身智能交互
icon
搜索文档
国内首篇!融合语言模型的多模态触觉传感器,推动机器人触觉迈向人类水平
机器之心· 2026-01-25 12:01
文章核心观点 - 清华大学深圳国际研究生院丁文伯团队联合无界智航(Xspark AI)及多所国内外科研机构,受鸽子感知系统启发,研发出仿生多模态触觉传感器SuperTac,并构建了8.5B参数的触觉语言模型DOVE,实现了触觉信号从底层感知到高层语义推理的突破,标志着机器人触觉感知向“人类水平”迈出关键一步 [2] 一、仿生逻辑:从鸽子眼球到多模态感知架构 - SuperTac的硬件设计灵感源于鸽子复杂的感知系统 [7] - 传感器集成了小型化多光谱成像模块,覆盖紫外(390 nm)、可见光(400–700 nm)、近红外(940 nm)及中红外(5.5–14.0 μm)的超宽频段,使机器人能同时解析热辐射、荧光位移等深层物理信息,全面表征物体形状、纹理、颜色和温度 [10][11] - 传感器在1 mm厚的皮肤内嵌入了摩擦纳米发电机(TENG)和惯性测量单元(IMU),TENG可根据物体电负性差异识别材质(准确率95%),并实现15 cm内的接近觉感知;IMU可捕捉0–60 Hz的振动及碰撞信号 [12] 二、核心机制:光场调制的「智能感知层」 - SuperTac的核心是厚度仅为1 mm的光场调制多层感知皮肤,最外层采用透明PEDOT:PSS导电层,通过涡旋线电极设计实现均匀电学信号,结合摩擦起电机制实现高精度材质分类与接近觉探测 [14] - 皮肤内的单向透视反射层充当光学开关,通过调节内外光强差,使传感器能在“触觉模式”下捕捉表面微观纹理与形变,或在外部光源下直接获取物体RGB颜色信息 [16] - 紫外荧光标记层利用在紫外光下激发的荧光标记,实现了形变监测与物体纹理检测的解耦,确保能同步捕捉切向滑动与表面细节 [16] 三、触觉语言大模型:8.5B参数背后的多模态融合架构 - 触觉语言模型DOVE采用分层架构,底层骨干由预训练的大语言模型Vicuna构成,提供语言理解与逻辑推理基础 [19] - 系统并行集成了四组预训练的CLIP模型作为模态编码器,将图像化的触觉特征(颜色、纹理、温度、材质信号)提取为深层特征向量 [19] - DOVE通过三阶段策略训练:首先用CLIP将异构传感器信号转化为通用图像表征;随后通过投影层将触觉特征对齐至语言模型空间;最后对Vicuna骨干网络进行微调,使其能结合常识对触觉指令进行复杂推理 [20] 四、应用场景:从物理触碰到语义逻辑的跃迁 - SuperTac与DOVE结合,实现了从“物理感知”向高层“语义认知”的跨越,赋予机器人类人的具身交互能力 [22] - 在基础识别维度,DOVE能实时融合多模态数据,为物体建立全方位“物理画像”,例如将未知杯子的感官印象转化为“黄色,室温,表面具有规律排布的凸起纹理,判定为金属材质”的语言描述 [24] - 在高层级应用上,DOVE能将实时触觉反馈与大模型常识结合,推断物体潜在功能并做出逻辑决策,如在垃圾分拣任务中,根据触觉特征推论物体为“废弃的塑料饮料瓶”并建议放入可回收垃圾桶 [26] 五、未来方向 - 硬件方面,未来将通过传感器微型化、低功耗芯片及高集成封装,提升机器人手内操作的灵活性并解决高负载下的散热稳定性难题 [28] - 认知层面,将依托DOVE模型的模态无关框架,通过优化传感器配置与专用数据集来持续增强系统的泛化能力,为实现自然、高效的人机交互奠定基础 [28]
国内首篇仿生触觉新突破!清华丁文伯团队研发“鸽眼”传感器,让机器人感知逼近人类!
机器人圈· 2026-01-21 17:34
文章核心观点 - 清华大学深圳国际研究生院丁文伯团队联合多所机构,受鸽子多光谱视觉与非成像感知机制启发,研发出一种仿生多模态触觉传感器SuperTac及触觉语言模型DOVE,旨在将机器人触觉感知能力提升至“人类水平”,为智能制造、医疗辅助与服务机器人等领域提供新一代解决方案,相关成果发表于Nature Sensors创刊号,是国内机构首次以第一单位在该期刊发表文章 [3][4] 研究背景与现有技术瓶颈 - 当前机器人触觉系统在感知维度、分辨率和信号理解能力上远逊于人类,难以支撑复杂动态的真实场景任务 [3] - 现有主流触觉传感方案存在显著不足:电子皮肤难以兼顾高分辨率与多模态融合;视触觉传感器感知谱段通常局限于可见光,缺乏对温度、材质等非成像模态的融合能力;当前系统普遍缺乏能融合多模态信息并进行语义推理的智能模型,导致机器人“有感无知” [4] 系统核心架构与工作流程 - 研究构建的多模态触觉传感系统包含三大核心组件:仿生多模态触觉传感器SuperTac、数据处理与特征提取模块、以及触觉语言模型理解推理层DOVE [4] - 系统采用分层设计实现全流程闭环处理:物理信号感知层同步采集多光谱视觉、摩擦电和惯性测量信号;数据融合处理层基于深度学习网络进行特征提取和模态融合;语义理解推理层通过DOVE模型将多模态特征映射到语义空间;最终集成至应用交互层支持实际任务 [5][7] - 该架构的核心创新在于实现了物理传感-特征提取-语义理解的端到端一体化设计,将传统分离的传感与解读过程有机融合 [7] 生物灵感来源与传感器设计 - 设计灵感来源于鸽子视网膜中多类型视锥细胞的分工机制,特别是紫外敏感细胞,以拓展传感器的光谱感知范围,并模拟其用于磁场感知的特殊分子机制,将非成像感知能力迁移至触觉领域 [6] - SuperTac通过多光谱成像(紫外、可见光、近红外、中红外波段)、摩擦电传感模块与惯性测量单元集成,实现对纹理、力、颜色、温度、材质、接近感、姿态等多物理量的同步感知 [6] - 传感器采用气压可调的硅胶充气支撑结构,动态调节0-7N力感知范围,并实现对复杂曲面的高保真轮廓重建 [6] - 感知皮肤采用总厚度仅1mm的四层薄膜堆叠结构,具备高透明度、良好导电性、光控透明切换等特性,通过内部光源开关可在触觉模式与视觉模式间智能切换 [9][10] 数据处理、特征提取算法与模型性能 - 力与位置感知采用基于U-Net的编码器-解码器架构,经过86,440组数据训练,达到位置检测均方误差0.056mm、力检测均方误差0.0004N的精度 [12] - 多模态分类任务采用专门化网络设计,在纹理识别、材质分类、颜色识别、滑动检测及碰撞检测上分别达到98%、95%、100%、97%及94%的准确率 [12] - 三维重建与轮廓感知方面,基于紫外荧光标记的位移分析算法实现变形重建,平均均方根误差0.0892、平均绝对误差0.0375,可识别0.07mm细发并实现100%盲文字符识别准确率 [12] - DOVE触觉语言模型采用基于预训练视觉-语言模型的架构,总参数量达8.6B,通过三阶段训练策略实现多模态特征到语义空间的嵌入对齐,能够融合触觉、温度、颜色和材质等信息进行联合推理 [14] - 为训练模型,系统采集了6种颜色、3种温度、10种材质和6种纹理的完整组合物理数据,并基于GPT-4和规则脚本生成了30,000组触觉语言问答对 [14] 系统验证与性能评估 - 系统性能通过多层次实验体系验证,包括基础传感性能精度标定、多属性识别准确率评估、80,000次接触循环的耐久性测试,以及在机器人抓取、物体识别、人机交互等真实场景中的可靠性测试 [17] - 研究进行了对比实验,与传统GelSight等传感器在轮廓感知、纹理识别等关键性能指标上进行系统化比较 [17] 总结与未来展望 - 研究为机器人触觉感知开辟了多个发展方向:硬件层面推动传感器的微型化以集成于机器人指尖;DOVE模型的模态无关框架具有良好的可扩展性,能为多模态触觉系统提供通用软件基础 [18] - 未来工作将重点研发低功耗解码芯片与高集成度封装方案,以减小系统尺寸并解决散热与稳定性问题,同时持续优化DOVE模型在不同传感器设计和专用数据集上的表现,增强其泛化能力与实用性 [18]