Workflow
视觉-语言-动作模型(VLA)
icon
搜索文档
VLA-Pruner:面向高效VLA推理的时序感知视觉token剪枝
具身智能之心· 2025-11-22 00:03
研究背景与核心挑战 - 视觉-语言-动作模型是具身智能的核心方向,能整合视觉感知、语言理解和动作执行,但处理连续视觉流时计算开销巨大,视觉Token数量通常是文本Token的一个数量级,严重限制实时部署 [2] - 现有视觉Token剪枝方法仅依赖预填充阶段的语义显著性指标筛选Token,但VLA模型存在双系统本质,高层语义理解与底层动作执行对视觉信息需求截然不同,导致现有方法过度偏向保留语义相关Token,却剪掉动作执行必需的局部细节Token [3] - 实验显示预填充与动作解码的Top-k Token重叠率仅约50%,甚至低于30%,直接证明单一语义准则无法适配VLA模型 [4] - 机器人操作具有天然的时间连续性,连续时序的动作解码注意力高度重叠,这为解决动作解码注意力在预填充阶段不可得的核心矛盾提供了突破口 [5] 方法设计:VLA-Pruner的核心逻辑 - VLA-Pruner采用双级重要性准则,兼顾语义与动作需求,语义级相关性采用视觉-语言预填充阶段的注意力分数量化语义重要性,动作级重要性则利用时间连续性通过历史数据估计动作解码注意力 [7][9] - 采用双级Token选择策略,遵循最小冗余-最大相关性原则,先进行双级Top-k筛选得到语义候选集和动作候选集,再通过最大化Token特征多样性去除冗余 [9][11] - 动作解码注意力的时序平滑估计采用衰减窗口平均机制,窗口大小设为3,衰减率设为0.8,既捕捉时序趋势又避免陈旧数据干扰 [13] - 实现细节显示该方法在50%、25%和12.5%的Token保留率下,最大内存占用和CUDA时间均优于或接近基线方法 [14] 实验验证:性能与效率的双重突破 - 在50%剪枝率下,VLA-Pruner不仅无性能损失,还能提升成功率,OpenVLA平均提升2.45%,OpenVLA-OFT提升1.05%,原因是精准过滤了语义冗余且不影响动作的噪声Token [16] - 在87.5%的高剪枝率下,VLA-Pruner仍保持88.9%和88.27%的相对性能,远超基线最高34.39% [16] - 在SIMPLER环境中75%剪枝率下,整体成功率达96.8%,显著高于FastV的73.1%和VLA-Cache的77.2%,证明在分布偏移场景下的鲁棒性 [19] - 在π₀模型上,50%剪枝率下平均成功率达100.89%,87.5%剪枝率仍保持87.97%,验证跨架构适配性 [20] - 效率方面,50%剪枝率下FLOPs降至原生模型的60%左右,87.5%剪枝率降至30%左右,最高实现1.8倍推理加速 [26] 消融实验与关键设计验证 - 消融实验证明双级准则的必要性,仅语义准则导致动作操控精度下降,仅动作准则牺牲任务规划能力,两者性能均远低于双级准则 [23] - 时序平滑价值分析显示窗口大小w=3最优,w=1性能下降,证明短期时序连续性的重要性 [27] - 剪枝层位置分析表明第3层剪枝能平衡性能与效率,层数过浅导致特征提取不充分,过深则计算量节省有限 [25][27] 核心贡献与未来方向 - 首次揭示VLA模型的双系统注意力特性,提出语义加动作双级剪枝准则,解决现有方法的本质缺陷 [31] - 利用机器人操作的时间连续性,通过时序平滑桥接预填充阶段无法获取动作注意力的矛盾 [31] - 设计无训练、即插即用的剪枝框架,在不修改模型架构的前提下实现高效推理 [31] - 未来优化方向包括用自适应预测模块替代固定窗口平滑,结合量化、层剪枝等技术提升部署效率,扩展至多模态视觉输入的Token剪枝 [31]
轻量级VLA模型Evo-1:仅凭0.77b参数取得SOTA,解决低成本训练与实时部署
具身智能之心· 2025-11-12 12:00
文章核心观点 - 上海交大、CMU、剑桥大学团队提出轻量级视觉-语言-动作模型Evo-1,该模型仅含0.77b参数,在无需机器人数据预训练的前提下,实现了低成本训练与高效率部署,并在多项基准测试中取得最先进成果 [3] - Evo-1通过创新的交叉调制扩散变换器与优化集成模块构建高效架构,并采用两阶段训练范式,在保持视觉语言模型强大表征能力的同时,显著提升了在机器人操作任务中的性能与泛化能力 [3][5] - 该模型在模拟与真实世界评估中均展现出卓越性能,其低内存占用和高推理频率使其非常适合在消费级GPU上进行实时部署,为轻量高效视觉学习代理模型的研究提供了新方向 [3][6][22] 行业痛点 - 现有视觉-语言-动作模型通常包含数十亿级参数,导致训练与推理阶段GPU内存消耗巨大且计算成本高昂 [4] - 高计算开销导致模型控制频率低下,严重限制了其在交互式机器人任务中的实时响应能力 [4] - 广泛采用的端到端训练范式会退化视觉-语言骨干模型的表征空间,导致下游任务泛化能力差且易过拟合 [4] - 多数模型依赖大规模机器人数据集的长期预训练,而此类数据集的收集过程耗费人力且成本高昂 [4] Evo-1方法及效果 - Evo-1采用统一的视觉-语言骨干模型,该模型在单阶段多模态范式下预训练而成,通过联合学习感知与语言表征实现了强大的多模态理解能力,显著缩减了整体模型规模 [5] - 模型设计了交叉调制扩散变换器来建模连续动作轨迹,实现高效的时间推理以生成连贯运动,同时大幅提高了推理频率,支持实时交互 [5] - 引入优化集成模块,将融合的视觉-语言表征与机器人的本体感知信息对齐,实现多模态特征在后续控制中的无缝整合 [5] - 提出两阶段训练范式,通过逐步对齐感知与控制模块,显著减轻了视觉语言模型语义空间的畸变,使其在无需机器人数据预训练下即展现强泛化能力 [5] 仿真测试结果 - 在Meta-World基准测试上取得80.6%的平均成功率,超越了先前最佳成绩68.2% [6][18] - 在RoboTwin套件上取得37.8%的平均成功率,超越了先前最佳成绩30.9% [6][18] - 在LIBERO测试上达到94.8%的平均成功率,展现出其在单臂与双臂操作任务中的良好适应性 [3][18] - 与基线模型对比显示,Evo-1在多项任务上的成功率均领先,例如在Meta-World的“Hard”和“Very Hard”任务中分别达到77.2%和79.2%的成功率 [19] 真机部署消耗 - Evo-1在真实世界四个典型机器人任务中的整体成功率达到78%,持续超越其他基线模型 [6][20] - 模型仅占用2.3 GB的GPU内存,并达到16.4 Hz的最高推理频率,在效率与性能之间实现了最佳平衡 [22][23] - 与参数量为3.5B的π0模型相比,Evo-1参数量仅为0.77B(约为其四分之一),但成功率(78%)超越了π0模型(73%)[20][23] 方法详解 视觉-语言骨干 - Evo-1采用InternVL3-1B模型作为其视觉语言融合的骨干架构,该模型通过大规模多模态与文本语料库协同学习语言与视觉理解能力,实现了紧密的跨模态对齐 [10] 交叉调制扩散变换器 - 采用条件去噪模块作为动作专家,从视觉-语言骨干生成的多模态嵌入中预测连续控制动作,该模块以扩散变换器形式实现,仅依赖堆叠的交叉注意力层 [11] 集成模块 - 采用基于交叉注意力的集成模块,在对扩散变换器进行条件处理前,有效融合多模态与本体感觉信息,采用特征拼接而非投影的方式处理信息,为动作生成提供全局性上下文 [12] 两阶段训练流程 - 第一阶段冻结整个视觉-语言骨干,仅训练动作专家与集成模块,使动作专家权重逐步与多模态嵌入空间对齐 [13] - 第二阶段解冻视觉语言模型骨干,并对整个架构进行全局微调,实现预训练骨干与动作专家的协同优化,确保更深度的融合 [14] - 该训练流程有效保留了原始语义空间,注意力可视化显示,经过训练后模型仍能保持清晰的语义关注点,而单阶段训练则会导致语义漂移 [14][25]
Ask-to-Clarify:解决指令的模糊性,端到端为真实具身任务生成动作
具身智能之心· 2025-10-22 11:04
文章核心观点 - 提出名为Ask-to-Clarify的创新框架,旨在解决具身智能体在真实世界中因指令模糊性而无法有效执行任务的关键问题 [4] - 该框架通过多轮对话主动澄清模糊指令,并以端到端方式生成动作,推动智能体从被动执行者向主动协作者转变 [2][4] - 框架结合了视觉语言模型的交互能力和扩散模型的行动生成能力,并通过独特的训练策略和连接模块实现高效协同 [6][10] 任务与框架设计 - 定义了一项新任务,要求智能体在执行指令前必须通过提问解决指令模糊性,更贴近现实交互需求 [12] - 框架核心包含一个用于人机协作的视觉语言模型和一个用于动作生成的扩散模型 [6][10] - 设计了一个连接模块,用于将VLM的输出转化为扩散模型稳定可靠的条件输入,平滑衔接两个组件 [6][10] 训练策略设计 - 采用两阶段“知识隔离”训练策略,第一阶段在交互对话数据上微调VLM,赋予其解决指令模糊性的能力 [15][17] - 第二阶段冻结协作组件参数,联合训练动作生成组件,防止对话能力在动作训练过程中被遗忘 [15][19] - 训练中引入特殊信号标记(如`<AMBG>`, `<NOT_AMBG>`)来指导模型在提问与执行间切换 [17][22] 实验验证与性能 - 在8个真实世界任务中评估框架,任务涵盖物体放置、液体倾倒和积木堆叠三大类 [27][34] - 与基线模型比较显示显著优势:在“将水果放盘子上”任务平均成功率达95%,“倒水”任务达98.3%,“堆叠积木”任务达90%,远超基线模型的57.5%或0% [30][35] - 消融实验证明两阶段训练策略和连接模块对框架成功至关重要 [25][36] - 在低光照(光照减少50%)和存在相似干扰物等非理想条件下,框架表现出良好鲁棒性,性能下降幅度远小于基线模型 [37][38][39][40] 技术实现细节 - 推理阶段通过信号检测器实现VLM交互能力与扩散模型行动能力间的无缝衔接,根据输出标记自动路由流程 [22][23] - 实验使用xArm 7机械臂和RealSense D435摄像头在真实环境中进行 [26] - 第一阶段训练数据由Qwen3-235B-A22B生成,第二阶段使用了手动采集的专家演示数据 [28]
MTRDrive:一种具备动态交互式推理的自动驾驶VLA框架(清华&小米)
自动驾驶之心· 2025-09-29 07:33
文章核心观点 - 视觉-语言-动作模型(VLA)是提升自动驾驶长尾场景推理能力的关键路径,但现有方法在长时程与高层级行为决策时面临显著挑战,尤其在极少样本或零样本的复杂场景下泛化能力有限[3] - 清华、小米汽车、麦吉尔大学和威斯康星大学麦迪逊分校的团队联合提出MTRDrive框架,将自动驾驶建模为动态交互式推理过程,突破传统静态单步决策的局限[4] - MTRDrive通过记忆-工具协同机制,其中工具库调用提升模型感知准确性,记忆模块通过对驾驶经验的持续增强提升推理可靠性,在长尾与OOD场景中的泛化能力与稳健性显著提升[4] 行业技术痛点分析 - 现有VLA模型在长尾场景中容易出现幻觉问题,在出现频率低但安全性要求高的驾驶情境中,模型容易做出脱离现实的"幻觉式推理",缺乏自我校正和外部验证能力[5] - 现有思维链增强技术大多依赖形式化结构化认知,未能深入捕捉模型与环境交互时的深层因果关系,这种因果推理缺失导致推理可靠性和泛化能力受限[5] - 当前VLMs的性能与实际部署所需的可靠性之间存在显著差距,模型具有脆弱性,常出现视觉幻觉现象,且在分布外场景中表现不佳,微小错误可能导致灾难性后果[8] MTRDrive框架设计原理 - MTRDrive框架基于"交互式推理"原则设计,赋予智能体主动检索驾驶经验和使用工具查询环境的能力,从静态决策模型转向动态交互式模型[9] - 框架包含两个核心组件:存储结构化驾驶经验的"驾驶经验库"和利用这些经验进行工具交互与决策的"经验驱动规划模块"[15] - 驾驶经验库构建采用CLIP预训练视觉编码器实现高效语义场景编码,通过余弦相似度计算场景间相似性,支持大规模低延迟相似性检索[17] - 结构化经验表示将每条经验形式化为元组<场景描述, 推理过程, 高层决策, 工具使用记录, 元数据>,使智能体能学习完成任务的方法并理解场景上下文[19] 技术创新点 - 设计了经验驱动的工具交互方法,通过检索Top-K个最相似过往场景,将场景中记录的推理过程和工具使用模式作为强上下文先验,引导VLM做出更合理的工具部署决策[21] - 采用两阶段训练流程:第一阶段为监督微调解决"冷启动"问题,教会模型工具使用和记忆整合的基础语法;第二阶段通过强化学习微调基于任务特定奖励信号优化决策能力[24][28][29] - 设计了专门的"格式奖励函数"引导模型学会策略性调用经验,完整的奖励函数由格式奖励和任务完成奖励组合而成,为模型提供明确信号指导其完成元认知任务[30][32] 实验验证结果 - 在NAVSIM基准数据集上,MTRDrive的规划准确率达到82.6%,是Qwen2.5-VL-72B(37.8%)的两倍多[40] - 在具有挑战性的RoadWork零样本场景中,MTRDrive规划准确率达到33.5%,高于性能最强的基准模型(29.7%)[40] - 消融实验显示,驾驶经验模块将RoadWork零样本场景中的规划准确率从17.3%翻倍至33.5%,证明经验检索机制是模型将所学技能应用于新场景的核心组件[44] - 在轨迹预测任务中,完整MTRDrive模型取得88.3的PDMS得分,达到与WoTE等专用方法相当的当前最优性能[47] 数据集建设贡献 - 基于原始RoadWork数据集构建了新的基准数据集Roadwork-VLM,利用Qwen2.5-VL-72B模型对整个数据集进行重新标注,生成详细的场景描述、高层导航指令和完整思维链推理序列[37] - Roadwork-VLM形成了完整的类人化端到端驾驶VLM数据集,可用于测试智能体在零样本设置下执行复杂高层行为决策的能力,后续将开源以推动领域研究[37]
从近1000篇工作中,看具身智能的技术发展路线!
自动驾驶之心· 2025-09-08 07:34
机器人操作 - 机器人操作从机械编程演进至具身智能阶段 聚焦多指灵巧手与AI赋能的数据采集和技能学习框架[6] - 灵巧操作依赖模拟器 人类演示和遥操作三种数据采集范式 结合模仿学习和强化学习框架[6] - 面临三大关键挑战 包括高质量数据集缺乏 静态学习框架鲁棒性不足 端到端学习泛化性受限[6][13] 具身导航与操作 - 导航任务从显式记忆转向隐式记忆 操作任务从强化学习拓展至模仿学习 扩散策略及VLA模型[13] - 物理模拟器分为室内型 Habitat AI2-THOR 室外型 CARLA AirSim 和通用型 ThreeDWorld Isaac Sim[12][13] - 操作模拟器包括经典物理引擎 MuJoCo PyBullet 和可微分物理引擎 Dojo Genesis[13] - 评估指标采用成功率 SR 和路径效率 SPL 操作任务使用SO(3)/SE(3)等变表示[13] 具身多模态大模型 - 由具身智能体 大语言模型 GPT系列 大视觉模型 ViT 和视觉语言模型 CLIP 构成基础架构[17] - 覆盖具身感知 导航 交互 仿真四大核心任务 感知分为GPT与非GPT模型 导航分通用与专用模型[17] - 使用Open X-Embodiment和HM3D等数据集 面临跨模态对齐难 计算资源消耗大 领域泛化性弱等挑战[17] 强化学习应用 - 采用RLHF DPO RLVR三种对齐范式 结合PPO和GRPO策略优化算法 通过KL正则约束政策偏移[24][26] - 应用于多模态大语言模型 视觉生成 统一模型和视觉-语言-动作模型四大方向[26] - 评估体系包含集合级 FID 样本级 RLHF奖励 和状态级 KL监控 配套SEED-Bench-R1等基准[26] 遥操作技术 - 系统架构包含人类状态测量 运动重定向 机器人控制和多模态反馈 支持单向或双向操作[30][32] - 运动重定向采用完整动力学模型与简化模型 LIPM 通过ZMP/DCM保证平衡[30] - 应用远程存在和危险作业场景 面临非专家操作门槛高 动态环境适应难 长延迟稳定性差等挑战[33] 视觉-语言-动作模型 - 涵盖80多个近三年发布的VLA模型 涉及架构创新 参数高效训练和实时推理加速等进展[31][34] - 按架构分为单体模型 Monolithic 与分层模型 Hierarchical 从结构与功能双维度分析[39] - 发展历程划分为萌芽 探索和快速发展三阶段 使用互联网图文 视频 仿真和真实机器人数据训练[36] - 应用于类人机器人 自动驾驶 医疗与工业机器人 精准农业和增强现实导航等领域[31]
从近1000篇工作中,看具身智能的技术发展路线!
具身智能之心· 2025-09-05 08:45
机器人操作技术演进 - 机器人操作从机械编程向具身智能演进 从简单夹爪发展到多指灵巧手[5] - 灵巧操作依赖数据采集与技能学习框架 包括模拟 人类演示和遥操作三种数据采集方式以及模仿学习与强化学习两种学习框架[5] - 面临三大关键挑战 涉及复杂被操作对象和多样操作类型[5][8] - 核心技术方向包括灵巧操作 多指手 人工智能赋能机器人 数据采集 模仿学习和强化学习[6] 具身导航与物理模拟器 - 导航与操作是具身智能核心能力 现实训练存在高成本问题 Sim-to-Real迁移受域差距制约[9] - 物理模拟器分为室内型 室外型和通用型 包括Habitat AI2-THOR CARLA AirSim ThreeDWorld和Isaac Sim等[14][15] - 导航从显式记忆转向隐式记忆 操作从强化学习拓展至模仿学习 扩散策略及VLA模型[15] - 操作任务按复杂程度和自由度递增 硬件演进涵盖多种类型[13] 具身多模态大模型发展 - 具身多模态大模型可弥合感知 认知与动作鸿沟 基础构成包括具身智能体 大语言模型 大视觉模型和视觉语言模型等[16][19] - 核心任务涵盖具身感知 导航 交互和仿真 感知分GPT与非GPT模型 导航分通用与专用模型 交互分短长视域动作策略[19] - 数据集包括Open X-Embodiment和HM3D等 面临跨模态对齐难 计算资源消耗大 领域泛化性弱等技术挑战[19] 具身仿真与研究任务 - 具身AI模拟器存在真实感 可扩展性和交互性问题 研究任务面临长轨迹记忆设计等多重挑战[20][24] - 视觉探索通过运动或感知构建环境内部模型 方法分好奇心驱动 覆盖最大化和重建驱动 核心数据集为Matterport3D和Gibson V1[24] - 视觉导航含点导航 物体导航 带先验导航和视觉语言导航 评估指标以成功率和路径长度加权成功率为主[24] 强化学习在视觉领域应用 - 强化学习在大语言模型中成效显著 近年拓展至视觉多模态领域 面临高维视觉输入等挑战[25] - 基础理论涵盖RLHF DPO和RLVR三大对齐范式 以及PPO和GRPO两种策略优化算法[26] - 核心研究方向包括多模态大语言模型 视觉生成 统一模型和视觉语言动作模型[28] 遥操作与人形机器人 - 人形机器人遥操作可结合人类认知与机器人物理能力 适配人类环境与危险场景如核救援和空间探索[29] - 系统架构含人类状态测量 运动重定向 机器人控制和多模态反馈 支持单向或双向遥操作[32] - 应用包括远程存在和危险作业等 挑战集中在非专家操作门槛 动态环境适应和长延迟稳定性[35] 视觉语言动作模型进展 - VLA模型从跨模态学习架构演化至融合视觉语言模型和动作规划器的通用智能体 涵盖80多个近三年发布的模型[33] - 按架构范式分类 提出基于任务复杂度 模态多样性和数据集规模的新型评估标准 涉及102个VLA模型和26个基础数据集[36] - 发展历程分萌芽 探索和快速发展三阶段 从模型架构 训练数据 预训练方法 后训练方法和模型评估五个维度剖析现状[38] - 横向整合VLA建模实践 提出单体模型与分层模型的分类体系 探索强化学习融合等前沿方向[41]
首个3D动作游戏专用VLA模型,打黑神话&只狼超越人类玩家 | ICCV 2025
量子位· 2025-08-19 13:25
文章核心观点 - 淘天集团未来生活实验室团队提出的CombatVLA模型在3D动作角色扮演游戏的战斗任务中表现出色,成功率超越GPT-4o和人类玩家 [1][4] - CombatVLA是一个3B级别的多模态大模型,通过动作思维(AoT)序列训练,实现了高效战斗决策和50倍加速 [4][8] - 该模型解决了3D战斗场景中的三大挑战:视觉感知、战斗推理和高效推理,并在战斗理解基准测试中全面超越现有模型 [6][11][46] CombatVLA概览 - 视觉-语言-动作模型(VLA)结合视觉、语义和动作控制,推动具身智能发展 [6] - 3D战斗场景面临视觉感知、战斗推理和高效推理三大挑战,现有方案存在泛化能力弱和推理延迟高的问题 [6][7] - CombatVLA基于3B参数规模,能处理视觉输入并输出具体可执行的动作指令,支持键鼠操作 [8] 动作追踪器和评测基准 - 团队开发了动作跟踪器,自动采集大规模训练数据,并建立了战斗理解评测基准CUBench [12][15] - CUBench涵盖信息获取、理解和推理三项核心能力,包含914条数据用于全面测试模型的战斗理解能力 [20][21] - 动作跟踪器在后台运行,监控键盘和鼠标操作以记录用户动作,并同步截取游戏截图 [17][18] CombatVLA模型 - 团队将动作跟踪器采集的数据转化为"动作思维"(AoT)数据,包含动作和解释两部分 [24] - 采用三阶段渐进式训练范式:视频级粗粒度微调、帧级细粒度微调和帧级截断微调 [26][27][29][33] - 训练过程中视觉编码器参数冻结,仅微调语言模型参数,并通过特殊标记实现输出截断加速 [35] 动作执行框架 - 团队开发了轻量级且高效的动作执行智能体,接收实时游戏画面作为输入,输出键鼠动作指令 [36][37] - 推理过程中采用截断输出策略,检测到特殊标记即停止,将内容解析为动作并转换为Python代码执行 [39][40] - 对实时游戏画面进行帧采样,去除冗余视觉信息,降低模型推理负担 [38] 实验结果 - 在CUBench上,CombatVLA取得63.61的最高平均分,比第二名Gemini-2.0-flash高出5.71分 [46] - 在通用基准评测中表现与基座模型相当,验证了方法的稳健性和泛化能力 [47] - 平均推理延迟仅1.8秒,比VARP快约50倍,模型调用成本仅为其1/10 [48][49] - 在任务级实战测试中,CombatVLA在中高难度任务上全面超越基线,并在零样本任务上展现较强泛化能力 [47][55]
聊聊DreamVLA:让机器人先看后想再动
具身智能之心· 2025-08-11 08:14
DreamVLA模型概述 - 提出一种新型视觉-语言-动作(VLA)模型DreamVLA 通过预测环境动态、空间和语义信息提升机器人动作决策精度 [1] - 采用"感知-预测-动作"循环框架 将动作规划视为逆动力学问题 通过预测未来环境状态推导动作 [6][7] - 在CALVIN ABC-D基准测试中平均任务完成长度达4.44 模拟环境性能比前代方法高3.5% 现实世界任务成功率76.7% [25] 技术架构 输入处理 - 多模态输入编码:语言指令(CLIP ViT-B/32文本编码器)、视觉图像(MAE预训练ViT-B模型处理双路摄像头)、机器人状态(可训练编码器) [10][14] - 采用perceiver resampler压缩视觉特征 将196个局部特征向量和全局[CLS] token压缩至可管理规模 [14] 世界知识预测 - 动态区域预测:使用CoTracker光流跟踪算法 通过速度阈值筛选生成二值化动态区域掩码 聚焦移动物体 [12][15] - 深度预测:有深度传感器时直接监督训练 无传感器时采用DepthAnything自监督 输出尺度归一化深度图 [13][16] - 语义预测:并行使用DINOv2(语义向量)和SAM(分割掩码) 通过轻量级ViT解码器输出语义特征 [18][22] 动作生成 - 采用扩散Transformer(DiT-B)作为动作解码器 从高斯噪声逐步生成7维动作向量(6维空间位移+1维抓手状态) [23] - 引入块状结构化注意力机制 结合因果/非因果注意力确保多步动作连贯性 [19] - 使用查询token引导未来世界知识预测 与输入序列拼接后生成世界嵌入 [20] 性能验证 - 消融实验显示动态区域预测贡献最大 深度/语义预测结合动态区域可进一步提升性能 [31] - 结构化注意力机制比普通因果注意力更稳定 分开查询优于共享查询 [31] - 使用DROID数据集(7.6万条轨迹)预训练 仅需100个任务特定演示微调即可展现强泛化能力 [25] 应用前景 - 框架兼容现有VLA模型 特别适合助手机器人和导航场景 [27] - 动态区域掩码能有效抑制背景干扰 深度地图辅助避障 语义特征提升物体交互精度 [17][22]
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
自动驾驶之心· 2025-07-16 12:05
核心观点 - 视觉-语言-动作模型(VLA)在接触密集型任务中存在触觉感知缺失的短板,难以实现精细力控制 [2] - Tactile-VLA通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务的力控制与泛化问题 [2][6] - 研究发现视觉-语言模型(VLM)的先验知识中已包含对物理交互的语义理解,通过少量演示即可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架:首次将触觉感知作为原生模态引入VLA模型,构建多模态深度融合架构 [6] - 混合位置-力控制器:将力目标转化为位置调整指令,解决位置与力控制的协同难题 [6][11] - Tactile-VLA-CoT变体:引入思维链推理机制,基于触觉反馈自主调整策略提升稳健性 [6][15] 主要解决的问题 - 触觉感知的指令遵循:理解"轻柔地""用力地"等力相关语言修饰词 [6] - 触觉相关常识运用:基于物体属性自主调整交互力 [6] - 触觉参与的自适应推理:通过触觉反馈诊断失败并制定纠正策略 [6] Tactile-VLA框架 整体架构 - 多模态深度融合架构包含视觉、语言、触觉和本体感觉输入的统一token表示 [9][11] - 通过非因果注意力机制实现视觉、语言和触觉token的自由交互 [9] 混合位置-力控制机制 - 控制逻辑:以位置控制为主,力误差超过阈值时引入力反馈调整 [11][12] - 双通道分离:外部净力与内部抓取力分离实现精细化调节 [13] 思维链推理机制 - 触发机制:固定间隔评估任务进展,检测失败时启动推理 [18] - 推理流程:判定任务成功与否、分析失败原因、生成纠正指令 [18] 数据收集方法 - 硬件平台:基于通用操作接口(UMI)配备双高分辨率触觉传感器 [19] - 同步机制:100Hz触觉信号与20Hz视觉数据时间对齐 [19] - 标注方式:人类操作员结合触觉反馈提供演示并记录语言指令 [19] 实验验证与结果分析 触觉感知的指令遵循实验 - 任务A(USB插拔):Tactile-VLA成功率达35%,充电器任务中达90% [22][23] - 力控制精度:USB任务中"轻柔地"施加0.51N力,"用力地"施加2.57N力 [23] 触觉相关常识的运用实验 - 域内物体抓取成功率:90%-100%,域外物体达80%-100% [30] - 力调节策略:根据物体属性自主调整力度,如对易碎物体用轻力 [30] 触觉参与的自适应推理实验 - 黑板擦拭任务:Tactile-VLA-CoT成功率达80%,基线模型为0 [28][32] - 推理过程:首次尝试失败后自主增加剪切力并成功完成任务 [32]
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
具身智能之心· 2025-07-15 15:55
核心观点 - 视觉-语言-动作模型(VLA)在接触密集型场景中存在触觉感知缺失的短板,难以实现精准力控制与物理交互 [2] - Tactile-VLA框架通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务中的力控制难题 [2] - 研究发现视觉-语言模型(VLM)的先验知识中已包含物理交互的语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架首次将触觉作为原生模态引入VLA模型,构建多模态深度融合架构 [7] - 混合位置-力控制器创新性地将力目标转化为位置调整指令,解决位置与力控制协同难题 [7] - Tactile-VLA-CoT变体引入思维链推理机制,基于触觉反馈分析失败原因并自主调整策略 [7] 主要解决问题 - 实现触觉感知的指令遵循、触觉相关常识运用和触觉参与的自适应推理三大能力 [9] 框架设计 整体架构 - 包含多模态编码器、Transformer backbone网络、触觉感知动作专家和混合位置-力控制器四大模块 [13] - 采用token级融合机制,通过非因果注意力实现视觉、语言和触觉token的自由交互 [14] 混合位置-力控制机制 - 以位置控制为主,力误差超阈值时引入力反馈调整,公式ΔF为目标力与实测力差值 [14] - 双通道分离设计:外部净力通过机械臂笛卡尔位置控制,内部抓取力通过夹爪宽度控制 [14] 思维链推理机制 - 按固定间隔评估任务进展,检测失败时启动"判定-分析-生成"三阶段推理流程 [14] - 使用含失败案例和语言注释的小型数据集微调模型,保留通用推理能力 [14] 实验验证 触觉感知的指令遵循 - USB任务中Tactile-VLA成功率35%,充电器任务达90%,显著高于基线模型(最高40%)[21] - 力控制精度:USB任务中"轻柔地"0.51N vs "用力地"2.57N,充电器任务保持区分度(4.68N vs 9.13N)[21] 触觉相关常识运用 - 域内物体抓取成功率90%-100%,域外物体80%-100%,显著高于基线(易碎物体基线接近0)[27] - 能根据物体属性自主调整力度:坚硬沉重物体用大力,易碎物体用轻力 [27] 触觉参与的自适应推理 - Tactile-VLA-CoT黑板任务成功率80%,基线模型和Tactile-VLA(无推理)分别为0和15% [33] - 首次尝试3.5N力失败后,通过推理将力增加到6.7N并成功完成任务 [33]