关于具身智能「触觉」，你想知道的都在这篇综述里了

文章核心观点 - 触觉是具身智能实现精确物理交互和高级语义推理的关键，与视觉、语言等多模态融合是机器人领域的必然趋势 [2] - 一篇由多所顶尖高校和公司联合发表的综述论文系统性地梳理了截至2026年第一季度的多模态触觉融合前沿研究，提出了涵盖数据集、方法、硬件和评估的层次分类法 [2][3] 多模态触觉融合的重要性 - 触觉提供了关于物体几何形状、材质属性和接触动力学最直接的近端反馈，这是视觉等远程传感器无法替代的，对于解决视觉模糊性至关重要 [6] - 在具身智能中，触觉是连接被动观察与主动物理交互的桥梁，是感知-行动闭环的基本组成部分，对于构建稳健的感知和控制系统、实现精确操作和稳定抓取至关重要 [6] 多模态触觉融合的处理流程 - 现有的多模态触觉融合系统普遍遵循一个四阶段处理流程：物理转导与时空观察、特定模态表征学习、跨模态融合、具身解码与任务执行 [9][11] 多模态触觉融合的层次化分类体系 - 综述提出了一个层次化分类体系，将多模态触觉融合系统划分为三大支柱：多模态数据集、多模态方法和触觉传感器 [10] 多模态数据集的发展 - 数据集是跨模态学习的“燃料”，其发展经历了四个阶段：T-V（触觉-视觉）、T-L（触觉-语言）、T-V-L（触觉-视觉-语言）和T-V-O（触觉-视觉-其他）[14][16] - T-V数据集从早期受控环境（如2016年VT Dataset的18个物体实例）向无约束野外环境（如2025年Touch in the Wild的260万样本）和复杂形变物体发展 [15][16] - T-L数据集旨在建立触觉与人类认知的桥梁，例如PhysiCLEAR（2024年，74个物体实例，408个样本）记录物体软硬和粗糙度，STOLA（2025年）支持开放式触觉常识推理 [15][16] - T-V-L数据集迎合大模型趋势，例如Touch100k（2025年）包含超过10万个三模态对齐样本，支持长文本自然语言描述 [15][16] - T-V-O数据集引入了动作、音频等其他模态，例如ObjectFolder系列（2021-2023年）结合了撞击音频，OmniViTac（2026年）加入了动作序列 [15][16] 多模态融合方法的核心范式 - 算法研究被结构化为三个核心方向：多模态感知与识别、多模态跨模态生成与转换、多模态交互与操作 [16][18] - 多模态感知与识别包括四个子任务：多模态物体识别、属性与材料识别、抓取成功/失败预测、跨模态检索与匹配 [18][20] - 多模态跨模态生成与转换让模型拥有跨感官合成能力，包括视-触双向生成和语言-触觉翻译（触觉转语言、文本生成触觉）[21][23][25] - 多模态交互与操作将感知直接与物理控制耦合，分为多模态感知驱动的机器人操作和语言指令下的多模态操作（融合大语言模型的VLA形态）[23][26] 触觉传感器的硬件形态 - 触觉传感平台分为四类：可穿戴触觉系统、手持与指尖传感器、机器皮肤与多模态传感器贴片、夹爪安装与集成传感器 [28] 领域面临的挑战与评估现状 - 领域面临四大核心挑战：数据碎片化与可扩展性瓶颈、模态不对齐与噪声干扰、软硬件集成壁垒、评估与基准的不一致性 [31] - 现有数据集的规模远小于视觉-语言资源，限制了基础模型的零样本迁移能力 [31] - 缺乏统一的评估基准，现有指标高度依赖于特定任务，例如感知任务使用准确率（ACC）、生成任务使用FID分数、操作任务使用成功率（SR）[31][32] 未来发展方向 - 未来需构建统一且可扩展的大规模数据集以打破发展瓶颈 [34] - 算法需要向层次化的融合架构演进，将触觉作为多模态推理的底层支撑 [34] - 硬件端需要发展柔性、耐用且具备端侧处理能力的仿生触觉皮肤 [34] - 最终目标是将触觉反馈作为连续的监督信号直接嵌入决策闭环，使具身智能系统从实验室迈向复杂的人类生活空间 [34]