Workflow
触觉语言模型DOVE
icon
搜索文档
国内首篇!融合语言模型的多模态触觉传感器
具身智能之心· 2026-01-26 11:42
文章核心观点 - 清华大学深圳国际研究生院丁文伯团队联合无界智航(Xspark AI)及多所国内外科研机构,受鸽子感知系统启发,研发出仿生多模态触觉传感器SuperTac,并构建了8.5B参数的触觉语言模型DOVE,实现了机器人触觉信号从底层物理感知到高层语义推理的突破,标志着机器人触觉感知向“人类水平”迈出关键一步 [1][2] 仿生逻辑与硬件设计 - 传感器SuperTac的硬件设计灵感来源于鸽子复杂的感知系统,特别是其多光谱视觉和非成像感知能力 [6][7] - 集成了小型化多光谱成像模块,覆盖紫外(390 nm)、可见光(400–700 nm)、近红外(940 nm)及中红外(5.5–14.0 μm)的超宽频段,使机器人能同时解析热辐射、荧光位移等信息,全面表征物体形状、纹理、颜色和温度 [9][10][11] - 在1 mm厚的皮肤内嵌入了摩擦纳米发电机(TENG)和惯性测量单元(IMU),TENG利用接触起电原理识别材质(准确率95%)并实现15 cm内的接近觉感知,IMU捕捉0–60 Hz的振动及碰撞信号 [12] 核心感知机制 - 核心是厚度仅为1 mm的光场调制多层感知皮肤,最外层采用透明PEDOT:PSS导电层,通过丝网印刷在TPU薄膜上形成涡旋线电极设计,提供均匀电学信号以实现高精度材质分类与接近觉探测 [14] - 皮肤包含单向透视反射层作为光学开关,通过调节内外光强差,使传感器能在“触觉模式”下捕捉表面微观纹理与形变,或在外部光源下直接获取物体RGB颜色信息 [16] - 紫外荧光标记层利用在紫外光下激发的荧光标记,实现了形变监测与物体纹理检测的解耦,确保能同步捕捉切向滑动与表面细节 [16] 触觉语言大模型DOVE - 构建了8.5B参数的触觉语言模型DOVE,采用分层架构,底层骨干由预训练大语言模型Vicuna构成,提供语言理解与逻辑推理基础 [19] - 并行集成四组预训练的CLIP模型作为模态编码器,将图像化的触觉特征(颜色、纹理、温度、材质信号)提取为深层特征向量 [19] - 通过三阶段训练策略实现从感知到认知的递进:先用CLIP将异构传感器信号转为通用图像表征,再通过投影层将触觉特征对齐至语言模型空间,最后对Vicuna骨干进行微调,使其能结合常识进行复杂推理 [20] 应用场景与能力 - SuperTac与DOVE结合,实现了从“物理感知”向“语义认知”的跨越,赋予机器人类人的具身交互能力 [22] - 在基础识别维度,能实时融合多模态数据,为物体建立全方位“物理画像”,例如将感官印象转化为人类可理解的语言描述(如“黄色,室温,表面具有规律排布的凸起纹理,判定为金属材质”) [24] - 在高层级应用上,能将实时触觉反馈与预训练的大模型常识结合,推断物体潜在功能并做出逻辑决策,如在垃圾分拣任务中,根据触觉特征判定物体为废弃塑料饮料瓶,并基于环保常识建议放入可回收垃圾桶 [24][26] 未来发展方向 - 硬件方面,通过传感器微型化、低功耗芯片及高集成封装,提升机器人手内操作的灵活性并解决高负载下的散热稳定性难题 [28] - 认知层面,依托DOVE模型的模态无关框架,通过优化传感器配置与专用数据集来持续增强系统的泛化能力,为实现自然、高效的人机交互奠定基础 [28]