TACO框架
搜索文档
直面VLA的「阿喀琉斯之踵」:TeleAI提升具身推理稳定性
具身智能之心· 2025-12-25 09:41
文章核心观点 - 视觉-语言-动作模型在推理阶段存在对初始噪声敏感导致的不稳定性问题,这阻碍了其从实验室走向真实世界部署 [1][4] - 中国电信人工智能研究院联合高校团队提出名为TACO的创新框架,通过测试时反探索原理来解决此问题,无需修改模型参数,在模拟和真实机器人实验中显著提升了任务成功率 [1][9][10] VLA模型推理不稳定性问题 - 即使经过任务特定数据微调,VLA模型在推理时对初始噪声极其敏感,仅改变初始噪声向量就可能导致任务成功率在0%至80%之间剧烈波动 [4] - 问题根源在于预训练阶段吸收了过于广泛的动作模式,以及微调数据集本身的多模态性,导致策略分布中保留了与任务成功无关的冗余或次优模式 [6][8] TACO框架的核心原理与设计 - TACO从离线强化学习的“反探索”原理获得灵感,旨在约束生成的动作使其保持在微调数据集中成功模式的支持范围内 [10] - 框架核心是通过Test-Time Scaling实现,包含耦合伪计数估计器、高保真特征搜索和生成-验证两阶段推理三个关键组件 [12] - 耦合伪计数估计器将轻量级的Coin-Flipping Network附加到VLA模型的最后隐藏层,直接利用模型内部丰富的表征能力,避免了训练独立编码器的资源消耗和先验知识丢失 [12][13] - 高保真特征搜索针对基于flow-matching或diffusion的VLA模型,通过使用不同噪声水平查询模型并选择预测动作最接近原始真实动作的内部表示,解决了直接输入干净动作导致特征失配的问题 [14][15][16] - 两阶段推理首先生成M个多样性动作候选,然后通过CFN计算伪计数并选择计数最大的动作执行,该过程有坚实的离线强化学习理论支撑 [18][19][20] TACO的计算优化 - 采用共享观察键值缓存技术,VLA的Transformer主干对共享上下文只需计算一次KV缓存,即可在所有并行动作生成中重复使用,大幅降低计算开销 [21] - 实验显示,当采样32个动作时,KV缓存优化将推理时间减少了73.2%,使得平均推理延迟仅增加200ms,满足实时控制需求 [21] 实验验证与性能提升 - 在RoboTwin基准上,TACO将π0模型的平均成功率从32.2%提升至41.3%,提升幅度达9.1个百分点,在最具挑战性的“挂衣架”任务上,成功率从7.0%跃升至12.0% [24][26] - 在另一个基准上,TACO使RDT模型的平均成功率从34.6%提升至64.0%,提升幅度达29.4个百分点 [27] - 在Simpler-WindowX基准上,TACO使π0的平均成功率从48.0%提升至55.5%,在“勺子放在毛巾上”和“胡萝卜放在盘子上”任务上分别提升16和10个百分点 [28][29] - 在LIBERO-long终生学习基准上,TACO在基础模型π0.5已达94.8%高成功率的基础上,仍能进一步提升1.8个百分点,在“Moka壶放在炉灶上”任务上成功率从68%大幅提高到86% [30][31] - 在RealMan75双臂机器人真实世界实验中,TACO将5个任务的平均成功率从40%提升至56%,提升幅度达16个百分点,在“纸和笔整理”任务上提升高达25个百分点,在“笔记本电脑操作”任务上提升15个百分点 [32][34] TACO的有效性机制 - 核心机制在于CFN估计的伪计数与预测动作和真实动作之间的L2距离存在强负相关性,选择最高伪计数的动作几乎总是选择最接近真实动作的动作,从而有效过滤次优行为 [17][36] - 消融实验表明,移除CFN伪计数、不进行特征缩放或不使用内部特征都会导致性能显著下降,验证了设计选择的重要性 [37]
直面VLA的「阿喀琉斯之踵」:TeleAI用「反探索」提升具身推理稳定性
机器之心· 2025-12-24 15:40
行业技术挑战 - 视觉-语言-动作模型在推理阶段存在严重不稳定性,对初始噪声极其敏感,导致相同模型执行同一任务的成功率可在0%至80%间剧烈波动 [3][4] - 不稳定性根源在于预训练阶段吸收了广泛的动作模式,以及微调数据集本身的多模态性,导致策略分布中存在大量与任务成功无关的冗余或次优模式 [6][7] 技术创新与解决方案 - 研究团队提出名为TACO的创新框架,其核心原理是从离线强化学习的“反探索”原则获得灵感,旨在约束生成的动作保持在微调数据集中成功模式的支持范围内 [8][9] - TACO通过Test-Time Scaling实现,不修改模型参数,其核心组件是耦合伪计数估计器,该设计直接利用VLA模型自身的内部表示能力,附加一个轻量级的Coin-Flipping Network头 [11][12] - 为解决基于flow-matching或diffusion的VLA模型无法处理干净动作数据的问题,TACO采用高保真特征搜索机制,通过查询不同噪声水平下的模型并选择预测最接近真实动作的内部表示 [13][14][15] - TACO采用生成-验证两阶段推理架构:首先生成M个多样化的动作候选,然后由CFN计算每个候选的伪计数并选择计数最大的动作执行,该过程有坚实的离线强化学习理论支撑 [17][18][19] - 为降低计算开销,TACO提出共享观察键值缓存技术,使生成多个候选动作的边际成本几乎为零,实验显示采样32个动作时推理时间减少73.2%,在真实机器人上平均推理延迟仅增加200ms [20] 实验验证与性能提升 - 在RoboTwin基准测试中,TACO将π0模型的平均成功率从32.2%提升至41.3%,提升幅度达9.1个百分点,在最具挑战性的“挂衣架”任务上,成功率从7.0%跃升至12.0% [23][24] - 在LIBERO基准测试中,TACO使RDT模型的平均成功率从34.6%提升至64.0%,提升幅度达29.4个百分点,在多个具体任务上提升显著,例如“移动锅和罐”任务从25.0%提升至57.0% [26] - 在Simpler-WindowX基准测试中,TACO使π0模型的平均成功率从48.0%提升至55.5%,在“勺子放在毛巾上”任务上提升16个百分点,在“胡萝卜放在盘子上”任务上提升10个百分点 [27][28] - 在最具挑战性的LIBERO-long终生学习基准上,TACO在基础模型π0.5已达94.8%高成功率的基础上,仍能进一步提升1.8个百分点至96.6%,在“Moka壶放在炉灶上”任务上成功率从68%大幅提高至86% [29][30] - 在RealMan75双臂机器人真实世界实验中,TACO将5个任务的平均成功率从40%提升至56%,提升幅度达16个百分点,在“纸和笔整理”任务上提升高达25个百分点,在“笔记本电脑操作”长周期任务上提升15个百分点 [31][32] 核心机制与设计验证 - 实验证实CFN估计的伪计数与预测动作和真实动作之间的L2距离存在强负相关性,选择具有最高伪计数的动作几乎总是会选择最接近真实动作的动作,从而有效过滤次优行为 [16][33] - 消融实验验证了TACO各设计组件的重要性,移除CFN伪计数、不进行特征缩放或不使用内部特征都会导致性能显著下降,使用独立编码器而非内部特征会使特征高度相似,难以进行准确的伪计数估计 [33] 研究意义与行业影响 - TACO框架为解决VLA模型从实验室走向真实世界部署的关键障碍——推理不稳定性——提供了扎实的理论根基和实践方案 [2] - 该方法证明轻量级的测试时缩放可以有效实现“反探索”,缓解由分布偏移引起的动作预测不稳定性和性能下降,为VLA模型的实际部署提供了新思路 [35]