国内首篇!融合语言模型的多模态触觉传感器,推动机器人触觉迈向人类水平
机器之心·2026-01-25 12:01

文章核心观点 - 清华大学深圳国际研究生院丁文伯团队联合无界智航(Xspark AI)及多所国内外科研机构,受鸽子感知系统启发,研发出仿生多模态触觉传感器SuperTac,并构建了8.5B参数的触觉语言模型DOVE,实现了触觉信号从底层感知到高层语义推理的突破,标志着机器人触觉感知向“人类水平”迈出关键一步 [2] 一、仿生逻辑:从鸽子眼球到多模态感知架构 - SuperTac的硬件设计灵感源于鸽子复杂的感知系统 [7] - 传感器集成了小型化多光谱成像模块,覆盖紫外(390 nm)、可见光(400–700 nm)、近红外(940 nm)及中红外(5.5–14.0 μm)的超宽频段,使机器人能同时解析热辐射、荧光位移等深层物理信息,全面表征物体形状、纹理、颜色和温度 [10][11] - 传感器在1 mm厚的皮肤内嵌入了摩擦纳米发电机(TENG)和惯性测量单元(IMU),TENG可根据物体电负性差异识别材质(准确率95%),并实现15 cm内的接近觉感知;IMU可捕捉0–60 Hz的振动及碰撞信号 [12] 二、核心机制:光场调制的「智能感知层」 - SuperTac的核心是厚度仅为1 mm的光场调制多层感知皮肤,最外层采用透明PEDOT:PSS导电层,通过涡旋线电极设计实现均匀电学信号,结合摩擦起电机制实现高精度材质分类与接近觉探测 [14] - 皮肤内的单向透视反射层充当光学开关,通过调节内外光强差,使传感器能在“触觉模式”下捕捉表面微观纹理与形变,或在外部光源下直接获取物体RGB颜色信息 [16] - 紫外荧光标记层利用在紫外光下激发的荧光标记,实现了形变监测与物体纹理检测的解耦,确保能同步捕捉切向滑动与表面细节 [16] 三、触觉语言大模型:8.5B参数背后的多模态融合架构 - 触觉语言模型DOVE采用分层架构,底层骨干由预训练的大语言模型Vicuna构成,提供语言理解与逻辑推理基础 [19] - 系统并行集成了四组预训练的CLIP模型作为模态编码器,将图像化的触觉特征(颜色、纹理、温度、材质信号)提取为深层特征向量 [19] - DOVE通过三阶段策略训练:首先用CLIP将异构传感器信号转化为通用图像表征;随后通过投影层将触觉特征对齐至语言模型空间;最后对Vicuna骨干网络进行微调,使其能结合常识对触觉指令进行复杂推理 [20] 四、应用场景:从物理触碰到语义逻辑的跃迁 - SuperTac与DOVE结合,实现了从“物理感知”向高层“语义认知”的跨越,赋予机器人类人的具身交互能力 [22] - 在基础识别维度,DOVE能实时融合多模态数据,为物体建立全方位“物理画像”,例如将未知杯子的感官印象转化为“黄色,室温,表面具有规律排布的凸起纹理,判定为金属材质”的语言描述 [24] - 在高层级应用上,DOVE能将实时触觉反馈与大模型常识结合,推断物体潜在功能并做出逻辑决策,如在垃圾分拣任务中,根据触觉特征推论物体为“废弃的塑料饮料瓶”并建议放入可回收垃圾桶 [26] 五、未来方向 - 硬件方面,未来将通过传感器微型化、低功耗芯片及高集成封装,提升机器人手内操作的灵活性并解决高负载下的散热稳定性难题 [28] - 认知层面,将依托DOVE模型的模态无关框架,通过优化传感器配置与专用数据集来持续增强系统的泛化能力,为实现自然、高效的人机交互奠定基础 [28]

国内首篇!融合语言模型的多模态触觉传感器,推动机器人触觉迈向人类水平 - Reportify