视觉 - 语言 - 动作推理(VLA)
搜索文档
英伟达最新推出的方案,优于所有推理型VLA
具身智能之心· 2026-01-16 08:33
文章核心观点 - NVIDIA团队提出了一种名为Fast-ThinkAct的高效视觉-语言-动作推理框架,旨在解决现有推理型VLA模型因生成冗长显式思维链而导致的高推理延迟问题 [1][5] - 该方法通过奖励引导的偏好蒸馏和视觉轨迹对齐,将语言和视觉规划压缩为紧凑的连续潜在表示,实现隐式内部推理,从而在显著提升推理速度的同时,保持甚至超越现有模型的性能 [5][8] - 在多个具身操作和推理基准上的实验表明,Fast-ThinkAct相较于最先进的推理型VLA模型,推理延迟最高可降低89.3%,同时保持了高效的长程规划、少样本自适应和故障恢复能力 [1][19] 现有VLA模型的问题与挑战 - 视觉-语言-动作任务要求智能体对复杂视觉场景进行推理并在动态环境中执行适应性动作,需要强大的长程规划能力和上下文自适应能力 [2] - 现有VLA模型主要依赖于动作数据的监督训练,在基础技能上表现出色,但难以泛化到训练分布之外的场景,如长程规划、故障自修正和新场景自适应 [2] - 引入中间思维过程的推理型VLA模型提升了泛化能力,但生成冗长的思维链步骤会导致显著的推理延迟,在需要高频率决策的实时具身应用中构成关键瓶颈 [3] Fast-ThinkAct方法概述 - 核心创新在于采用可语言化的潜在推理,将推理过程从冗长的文本思维链压缩为一组紧凑的连续潜在表示 [5][9] - 采用师生蒸馏框架:文本教师模型通过基于强化学习的训练生成质量各异的显式推理轨迹;学生VLM则学习生成紧凑的潜在向量,并通过一个可语言化模型将其解码为自然语言,训练目标鼓励学生编码的潜在向量能对应高质量的推理 [10] - 引入了动作对齐的视觉规划蒸馏,通过最小化教师与学生模型在编码视觉规划的隐藏状态之间的L2距离,将教师的视觉空间推理能力迁移给学生 [11][13] - 训练完成后,学生VLM生成的紧凑潜在表示和视觉轨迹规划被用于引导基于扩散Transformer的动作模型,实现高层规划与低层动作执行的衔接 [14] 实验性能与优势 - **机器人操作性能**:在LIBERO和SimplerEnv基准上,Fast-ThinkAct在所有子任务上均优于所有基线模型,包括基础VLA和推理型VLA [19] - **推理延迟降低**:紧凑潜在推理相较于ThinkAct-7B和MolmoAct-7B,推理延迟分别降低89.3%和88.0%,相较于ThinkAct-3B推理速度提升7倍 [19] - **复杂场景表现**:在需要长程规划的双臂操作基准RoboTwin2.0上,Fast-ThinkAct在简单和困难设置下的成功率分别比RDT提升9.3%和3.6%,比ThinkAct提升3.3%和1.7% [20] - **具身推理能力**:在EgoPlan-Bench2、RoboVQA、OpenEQA三个推理基准上,Fast-ThinkAct超越所有对比方法,包括GPT-4V和Gemini-2.5-Flash等专有模型 [21][22] 框架支持的先进能力 - **长程规划**:在平均步骤超过270的长程任务中,Fast-ThinkAct在RoboTwin2.0的简单和困难设置下平均分分别达到48.8和16.8,超越RDT和ThinkAct [23] - **故障恢复**:在RoboFAC基准上,Fast-ThinkAct在模拟和真实世界数据集上的得分分别以10.9分和16.4分显著优于第二名基线,能够识别故障并生成具体的恢复计划 [25] - **少样本自适应**:在RoboTwin2.0基准上,每个任务仅使用10个演示进行微调,Fast-ThinkAct显著增强了动作模型,并在中长程任务上优于最先进的VLA [27] - **推理简洁性**:可视化对比显示,学生的可语言化潜在推理输出比教师的文本推理更简洁、聚焦,过滤了冗余信息 [29] 方法有效性的验证 - **消融实验**:移除基于偏好的可语言化损失会导致性能下降;进一步移除视觉规划蒸馏损失会造成额外性能下降,验证了所提出的蒸馏框架和视觉轨迹对齐的必要性 [30] - **训练策略对比**:实验表明,单纯的思维链监督微调在结构化推理任务上表现不如监督微调,而偏好引导方法能在保持效率的同时提炼高质量推理 [30][31]