Workflow
触觉感知
icon
搜索文档
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
自动驾驶之心· 2025-07-16 12:05
核心观点 - 视觉-语言-动作模型(VLA)在接触密集型任务中存在触觉感知缺失的短板,难以实现精细力控制 [2] - Tactile-VLA通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务的力控制与泛化问题 [2][6] - 研究发现视觉-语言模型(VLM)的先验知识中已包含对物理交互的语义理解,通过少量演示即可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架:首次将触觉感知作为原生模态引入VLA模型,构建多模态深度融合架构 [6] - 混合位置-力控制器:将力目标转化为位置调整指令,解决位置与力控制的协同难题 [6][11] - Tactile-VLA-CoT变体:引入思维链推理机制,基于触觉反馈自主调整策略提升稳健性 [6][15] 主要解决的问题 - 触觉感知的指令遵循:理解"轻柔地""用力地"等力相关语言修饰词 [6] - 触觉相关常识运用:基于物体属性自主调整交互力 [6] - 触觉参与的自适应推理:通过触觉反馈诊断失败并制定纠正策略 [6] Tactile-VLA框架 整体架构 - 多模态深度融合架构包含视觉、语言、触觉和本体感觉输入的统一token表示 [9][11] - 通过非因果注意力机制实现视觉、语言和触觉token的自由交互 [9] 混合位置-力控制机制 - 控制逻辑:以位置控制为主,力误差超过阈值时引入力反馈调整 [11][12] - 双通道分离:外部净力与内部抓取力分离实现精细化调节 [13] 思维链推理机制 - 触发机制:固定间隔评估任务进展,检测失败时启动推理 [18] - 推理流程:判定任务成功与否、分析失败原因、生成纠正指令 [18] 数据收集方法 - 硬件平台:基于通用操作接口(UMI)配备双高分辨率触觉传感器 [19] - 同步机制:100Hz触觉信号与20Hz视觉数据时间对齐 [19] - 标注方式:人类操作员结合触觉反馈提供演示并记录语言指令 [19] 实验验证与结果分析 触觉感知的指令遵循实验 - 任务A(USB插拔):Tactile-VLA成功率达35%,充电器任务中达90% [22][23] - 力控制精度:USB任务中"轻柔地"施加0.51N力,"用力地"施加2.57N力 [23] 触觉相关常识的运用实验 - 域内物体抓取成功率:90%-100%,域外物体达80%-100% [30] - 力调节策略:根据物体属性自主调整力度,如对易碎物体用轻力 [30] 触觉参与的自适应推理实验 - 黑板擦拭任务:Tactile-VLA-CoT成功率达80%,基线模型为0 [28][32] - 推理过程:首次尝试失败后自主增加剪切力并成功完成任务 [32]
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
具身智能之心· 2025-07-15 15:55
核心观点 - 视觉-语言-动作模型(VLA)在接触密集型场景中存在触觉感知缺失的短板,难以实现精准力控制与物理交互 [2] - Tactile-VLA框架通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务中的力控制难题 [2] - 研究发现视觉-语言模型(VLM)的先验知识中已包含物理交互的语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架首次将触觉作为原生模态引入VLA模型,构建多模态深度融合架构 [7] - 混合位置-力控制器创新性地将力目标转化为位置调整指令,解决位置与力控制协同难题 [7] - Tactile-VLA-CoT变体引入思维链推理机制,基于触觉反馈分析失败原因并自主调整策略 [7] 主要解决问题 - 实现触觉感知的指令遵循、触觉相关常识运用和触觉参与的自适应推理三大能力 [9] 框架设计 整体架构 - 包含多模态编码器、Transformer backbone网络、触觉感知动作专家和混合位置-力控制器四大模块 [13] - 采用token级融合机制,通过非因果注意力实现视觉、语言和触觉token的自由交互 [14] 混合位置-力控制机制 - 以位置控制为主,力误差超阈值时引入力反馈调整,公式ΔF为目标力与实测力差值 [14] - 双通道分离设计:外部净力通过机械臂笛卡尔位置控制,内部抓取力通过夹爪宽度控制 [14] 思维链推理机制 - 按固定间隔评估任务进展,检测失败时启动"判定-分析-生成"三阶段推理流程 [14] - 使用含失败案例和语言注释的小型数据集微调模型,保留通用推理能力 [14] 实验验证 触觉感知的指令遵循 - USB任务中Tactile-VLA成功率35%,充电器任务达90%,显著高于基线模型(最高40%)[21] - 力控制精度:USB任务中"轻柔地"0.51N vs "用力地"2.57N,充电器任务保持区分度(4.68N vs 9.13N)[21] 触觉相关常识运用 - 域内物体抓取成功率90%-100%,域外物体80%-100%,显著高于基线(易碎物体基线接近0)[27] - 能根据物体属性自主调整力度:坚硬沉重物体用大力,易碎物体用轻力 [27] 触觉参与的自适应推理 - Tactile-VLA-CoT黑板任务成功率80%,基线模型和Tactile-VLA(无推理)分别为0和15% [33] - 首次尝试3.5N力失败后,通过推理将力增加到6.7N并成功完成任务 [33]
InformationFusion期刊发表:Touch100k用语言解锁触觉感知新维度
机器人大讲堂· 2025-06-08 16:47
触觉多模态研究突破 - 北京交通大学联合腾讯微信AI团队发布全球首个触觉-语言-视觉三模态数据集Touch100k,包含10万组触觉图像、视觉图像及多粒度语言描述,突破传统触觉研究仅聚焦视觉模态的局限[1][2] - 创新提出TLV-Link预训练方法,采用"教师-学生"课程范式实现视觉编码器向触觉编码器的知识迁移,模态对齐阶段通过对比学习融合文本特征,显著提升零样本触觉理解能力[6][7] - 实验显示TLV-Link在材料属性识别任务中准确率达93.1%(硬/软分类)和84.7%(粗糙/光滑分类),机器人抓取预测任务准确率94.5%,较基准模型最高提升4.2个百分点[9] 技术实现路径 - 数据集构建整合Touch and Go、VisGel等公开数据集接触帧,通过人机协作生成词组/句子级触觉描述,形成标准化三模态数据架构[2][5] - TLV-Link课程表示阶段动态调整视觉-触觉特征权重(初始依赖教师模型70%权重,随训练逐步降低至30%),模态对齐阶段采用文本编码器生成融合特征[6][9] - t-SNE可视化证实触觉表征在二元分类任务中区分度显著,但多分类任务泛化能力待提升,显示当前方法在复杂操作场景的局限性[9][10] 行业应用价值 - 研究填补触觉领域语言模态空白,使机器人具备"表述"触觉信息的能力,为人机交互、医疗机器人触觉反馈提供新技术路径[1][11] - GelSight传感器专用表征学习方法可适配工业机器人精确抓取、医疗手术力反馈等场景,实验显示抓取预测准确率较现有最优模型提升3.9%[9][11] - 成果发表于SCI一区期刊《Information Fusion》(影响因子14.8),数据集与代码已开源,推动行业建立触觉多模态研究基准[1][12]
帕西尼获比亚迪数亿元融资,具身智能融资热度持续升温
南方都市报· 2025-04-28 17:55
公司融资动态 - 帕西尼感知科技获得比亚迪数亿元战略投资 这是公司A++轮融资 也是比亚迪在具身智能领域最大单笔投资 [1] - 本轮融资将用于多维触觉传感技术及人形机器人产品矩阵的研发与量产推进 [1] - 帕西尼已构建覆盖"触觉传感器—灵巧手—人形机器人"的全栈产品体系 产品应用于工业、物流、安检及康养等场景 [3] 技术突破与行业地位 - 公司核心团队源自日本早稻田大学菅野机器人实验室 自主研发的6D霍尔阵列式触觉传感器打破海外技术垄断 [3] - 触觉传感器赛道是中国35项"卡脖子"技术中排名第4的重点难题 是机器人实现灵巧抓取与精细操作的关键 [3] - 触觉感知技术被视作具身智能产业的"新基建" 其技术目标包括识别材质精细差异如区分爱马仕与地摊货 [3] 行业融资趋势 - 2024年Q1国内人形机器人领域融资事件达37笔 涉及33家企业 总金额约35亿元 单笔最大融资达1.2亿美元 [4] - 触觉感知及末端执行器相关赛道年内已发生超20起融资 累计金额超30亿元 [3][4] - 北京、深圳及长三角为创业主要聚集地 企业多成立于2023-2024年 融资轮次集中在天使轮与Pre-A阶段 [4] 产业链发展现状 - 除本体研发企业外 机器人软件、核心零部件公司同样受资本青睐 如中能坤域、阿米奥机器人获数亿元融资 [4] - 意优科技、良质关节等零部件企业已实现量产与批量交付 推动产业链完善 [4] - 深圳地铁站已落地应用帕西尼机器人产品 显示商业化初步进展 [3] 行业挑战 - 尽管技术热度攀升 人形机器人商业化落地仍面临应用场景与盈利模式不清晰的质疑 [4] - 投资人指出具身智能商业化路径不明晰 需平衡技术创新与商业可持续发展 [4][5]
比亚迪具身智能领域最大单笔投资落地,超亿元瞄准帕西尼触觉感知技术
36氪· 2025-04-28 10:25
文章核心观点 比亚迪超亿元战略投资帕西尼感知科技,是其本年度首笔重磅股权投资和在具身智能领域最大单笔投资,帕西尼的6D霍尔阵列式触觉传感技术有优势,双方合作可实现产业协同,推动具身智能落地与产业化变革 [1][3][12] 投资情况 - 比亚迪本年度首笔重磅股权投资投向帕西尼感知科技,是其在具身智能领域最大单笔投资 [1] - 这是比亚迪继智元机器人后再度加码具身智能领域,聚焦触觉传感技术 [3] 帕西尼公司情况 - 成立于2021年6月,是国内极少数可实现高精度多维触觉传感器自主可控,拥有完整多维触觉产品矩阵的企业 [1] - 创始成员来自日本早稻田大学菅野机器人实验室,研发出6D霍尔阵列式触觉传感器,构建全栈式具身智能技术体系 [1] - 基于6D霍尔阵列式触觉传感技术方案,推出高精度阵列式多维触觉传感器,可实现超高触觉采样,捕捉多种触觉感知信息,有精细力识别能力和高频输出能力 [5] - 通过相关技术填平触觉传感器从研究到产业化的鸿沟,打破行业发展桎梏,实现多维阵列力感知及多物理属性解析,工业级寿命超300万次,已高可靠性规模化量产,全球出货量居首 [5] - 6D霍尔原理核心竞争力在于软硬一体的高可靠精细磁场捕捉和解析技术,硬件可防水防尘并捕捉磁分布变化,算法可实现干扰免疫和快速力学求解 [6] - 构建起6D霍尔阵列式全栈多维触觉产品矩阵,灵巧手DexH13是全球首款双模态机器人末端,人形机器人TORA - ONE能满足多种场景复杂精细化操作需求 [8] 合作意义 - 比亚迪与帕西尼的合作是全方位产业协同,帕西尼有望在具身智能产业竞争中脱颖而出,比亚迪可在汽车产业智能化升级与产业化布局中抢占先机 [10] 行业趋势 - 产业龙头比亚迪注资表明对帕西尼技术路线看好,折射出资本对具身智能产业价值锚点的判断,触觉感知与具身智能领域或迎来分水岭 [12] - 帕西尼的6D霍尔阵列式触觉传感技术加速形成人形机器人技术闭环,推进具身智能实际落地与产业化变革 [12]