Workflow
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
具身智能之心·2025-07-15 15:55

核心观点 - 视觉-语言-动作模型(VLA)在接触密集型场景中存在触觉感知缺失的短板,难以实现精准力控制与物理交互 [2] - Tactile-VLA框架通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务中的力控制难题 [2] - 研究发现视觉-语言模型(VLM)的先验知识中已包含物理交互的语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架首次将触觉作为原生模态引入VLA模型,构建多模态深度融合架构 [7] - 混合位置-力控制器创新性地将力目标转化为位置调整指令,解决位置与力控制协同难题 [7] - Tactile-VLA-CoT变体引入思维链推理机制,基于触觉反馈分析失败原因并自主调整策略 [7] 主要解决问题 - 实现触觉感知的指令遵循、触觉相关常识运用和触觉参与的自适应推理三大能力 [9] 框架设计 整体架构 - 包含多模态编码器、Transformer backbone网络、触觉感知动作专家和混合位置-力控制器四大模块 [13] - 采用token级融合机制,通过非因果注意力实现视觉、语言和触觉token的自由交互 [14] 混合位置-力控制机制 - 以位置控制为主,力误差超阈值时引入力反馈调整,公式ΔF为目标力与实测力差值 [14] - 双通道分离设计:外部净力通过机械臂笛卡尔位置控制,内部抓取力通过夹爪宽度控制 [14] 思维链推理机制 - 按固定间隔评估任务进展,检测失败时启动"判定-分析-生成"三阶段推理流程 [14] - 使用含失败案例和语言注释的小型数据集微调模型,保留通用推理能力 [14] 实验验证 触觉感知的指令遵循 - USB任务中Tactile-VLA成功率35%,充电器任务达90%,显著高于基线模型(最高40%)[21] - 力控制精度:USB任务中"轻柔地"0.51N vs "用力地"2.57N,充电器任务保持区分度(4.68N vs 9.13N)[21] 触觉相关常识运用 - 域内物体抓取成功率90%-100%,域外物体80%-100%,显著高于基线(易碎物体基线接近0)[27] - 能根据物体属性自主调整力度:坚硬沉重物体用大力,易碎物体用轻力 [27] 触觉参与的自适应推理 - Tactile-VLA-CoT黑板任务成功率80%,基线模型和Tactile-VLA(无推理)分别为0和15% [33] - 首次尝试3.5N力失败后,通过推理将力增加到6.7N并成功完成任务 [33]