免训练!使用贝叶斯去微调VLM,机器人操作任务取得SOTA!
具身智能之心·2025-12-03 11:47

核心技术框架 - 提出T²-VLM框架 一种无需训练且具有时序一致性的方法 通过跟踪视觉语言模型推导出的子目标状态变化来生成精确奖励 [2] - 框架首先在每轮交互前查询视觉语言模型以建立空间感知的子目标及初始完成度估计 随后采用贝叶斯跟踪算法利用子目标隐藏状态动态更新目标完成状态 [2] - 该方法为强化学习智能体生成结构化奖励 增强长程决策能力并借助强化学习提升故障恢复性能 [2] 技术优势与性能 - T²-VLM在两个机器人操作基准测试中取得最先进性能 在降低计算消耗的同时展现优异奖励准确性 [2] - 方法在不牺牲视觉语言模型通用泛化能力前提下显著提升其空间理解能力 为真机强化学习训练提供更精确反馈 [5] - 解决预训练数据集缺乏领域特定机器人知识及高昂计算成本阻碍实时应用的问题 [2] 应用场景 - 针对长序列机械臂操作任务中视觉语言模型难以稳定提供准确奖励信号的挑战提出解决方案 [5] - 框架专为机器人操作任务设计 通过时序一致性增强在具身任务如目标分解与视觉理解中的性能 [2]