反探索 - 财报，业绩电话会，研报，新闻

反探索

搜索文档

具身智能之心· 2025-12-25 09:41

文章核心观点 - 视觉-语言-动作模型在推理阶段存在对初始噪声敏感导致的不稳定性问题，这阻碍了其从实验室走向真实世界部署 [1][4] - 中国电信人工智能研究院联合高校团队提出名为TACO的创新框架，通过测试时反探索原理来解决此问题，无需修改模型参数，在模拟和真实机器人实验中显著提升了任务成功率 [1][9][10] VLA模型推理不稳定性问题 - 即使经过任务特定数据微调，VLA模型在推理时对初始噪声极其敏感，仅改变初始噪声向量就可能导致任务成功率在0%至80%之间剧烈波动 [4] - 问题根源在于预训练阶段吸收了过于广泛的动作模式，以及微调数据集本身的多模态性，导致策略分布中保留了与任务成功无关的冗余或次优模式 [6][8] TACO框架的核心原理与设计 - TACO从离线强化学习的“反探索”原理获得灵感，旨在约束生成的动作使其保持在微调数据集中成功模式的支持范围内 [10] - 框架核心是通过Test-Time Scaling实现，包含耦合伪计数估计器、高保真特征搜索和生成-验证两阶段推理三个关键组件 [12] - 耦合伪计数估计器将轻量级的Coin-Flipping Network附加到VLA模型的最后隐藏层，直接利用模型内部丰富的表征能力，避免了训练独立编码器的资源消耗和先验知识丢失 [12][13] - 高保真特征搜索针对基于flow-matching或diffusion的VLA模型，通过使用不同噪声水平查询模型并选择预测动作最接近原始真实动作的内部表示，解决了直接输入干净动作导致特征失配的问题 [14][15][16] - 两阶段推理首先生成M个多样性动作候选，然后通过CFN计算伪计数并选择计数最大的动作执行，该过程有坚实的离线强化学习理论支撑 [18][19][20] TACO的计算优化 - 采用共享观察键值缓存技术，VLA的Transformer主干对共享上下文只需计算一次KV缓存，即可在所有并行动作生成中重复使用，大幅降低计算开销 [21] - 实验显示，当采样32个动作时，KV缓存优化将推理时间减少了73.2%，使得平均推理延迟仅增加200ms，满足实时控制需求 [21] 实验验证与性能提升 - 在RoboTwin基准上，TACO将π0模型的平均成功率从32.2%提升至41.3%，提升幅度达9.1个百分点，在最具挑战性的“挂衣架”任务上，成功率从7.0%跃升至12.0% [24][26] - 在另一个基准上，TACO使RDT模型的平均成功率从34.6%提升至64.0%，提升幅度达29.4个百分点 [27] - 在Simpler-WindowX基准上，TACO使π0的平均成功率从48.0%提升至55.5%，在“勺子放在毛巾上”和“胡萝卜放在盘子上”任务上分别提升16和10个百分点 [28][29] - 在LIBERO-long终生学习基准上，TACO在基础模型π0.5已达94.8%高成功率的基础上，仍能进一步提升1.8个百分点，在“Moka壶放在炉灶上”任务上成功率从68%大幅提高到86% [30][31] - 在RealMan75双臂机器人真实世界实验中，TACO将5个任务的平均成功率从40%提升至56%，提升幅度达16个百分点，在“纸和笔整理”任务上提升高达25个百分点，在“笔记本电脑操作”任务上提升15个百分点 [32][34] TACO的有效性机制 - 核心机制在于CFN估计的伪计数与预测动作和真实动作之间的L2距离存在强负相关性，选择最高伪计数的动作几乎总是选择最接近真实动作的动作，从而有效过滤次优行为 [17][36] - 消融实验表明，移除CFN伪计数、不进行特征缩放或不使用内部特征都会导致性能显著下降，验证了设计选择的重要性 [37]