Workflow
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
具身智能之心·2025-09-09 08:03

文章核心观点 - 中国电信人工智能研究院提出了一种名为"对齐-引导-泛化"的VLA跨本体泛化框架,旨在解决视觉-语言-动作模型在后训练阶段面临的跨本体适配挑战 [1][2] - 该框架的核心思想是在潜空间中对齐跨本体动作分布,并利用统一潜空间梯度引导VLA策略更新,实现了从调架构向调分布的范式转移 [2][9] - ATE框架能够适配Diffusion和Flow-Matching等主流VLA模型,极大减少了VLA跨本体适配的数据需求,在仿真和真实机器人实验中均表现出显著性能提升 [2][16] 研究背景与动机 - 现有VLA基座模型在进行目标场景应用时,需要采集数十至数百小时目标本体数据完成后训练,当预训练和后训练阶段动作分布出现严重失配时,引发跨本体适配挑战 [1] - 决定VLA能否进行跨本体迁移的关键是预训练阶段与后训练阶段动作分布的一致性,而非参数规模或主干架构复杂度 [5] - 当目标本体的机械臂构型、执行器形态、关节自由度等发生变化时,目标动作分布会偏离预训练阶段学得的动作分布域 [5] ATE框架方法论 - ATE框架分为两个阶段:第一阶段构建统一动作潜空间并对齐动作分布,第二阶段设计引导函数并利用分类器引导VLA模型更新 [9] - 在潜空间对齐阶段,通过训练两个小型变分自编码器模型,将适配数据的潜变量分布逼近预训练潜分布的某一模态 [17] - 在引导阶段,通过能量函数和分类器衡量生成动作与目标动作分布的差异,将引导梯度整合进训练目标函数中,对生成轨迹的分布施加"拉力" [14] 技术优势 - ATE框架带来三方面优势:样本效率提升、训练效率提升、工程可复用性增强 [10] - 潜空间对齐将策略搜索范围约束在包含目标分布域的流形上,显著降低了拟合到可行动作分布所需的数据量 [10] - 分布引导避免模型全参数重训练,在既定训练预算内获得更快的有效收敛,且与顶层模型解耦,具备即插即用特性 [10] 实验结果 - 在ManiSkill与RoboTwin 1.0等多任务仿真评测中,ATE相较于直接后训练,平均多任务成功率最高提升9.8% [16] - 在真实机器人跨本体现实场景中,ATE带来最高32%的成功率增益,且表现出更稳健的收敛行为与对光照、干扰的鲁棒性 [16] - 具体任务表现:RDT在Empty Cup Place任务成功率由22%提升到61%,Pi-0在Dual Bottles Pick任务上成功率由48%提升到85% [18] - 从样本效率角度,ATE在70k步即可超过传统RDT的90k步效果,说明对齐-引导机制显著提升了任务成功率 [18] 实际应用验证 - 在自行搭建的双臂睿尔曼实验环境中,ATE算法能够将基座RDT和Pi-0等VLA模型快速适配到目标本体上 [20] - 在需要双臂协同、时序规划与多阶段配合的分钟级长程任务上,ATE框架能使模型更快地收敛到目标域动作分布 [20] - ATE框架在未见的光照、杂物干扰、空间偏移与外部干预下仍能维持任务相关注意与恢复能力 [22]