告别噪声初始化:NTU MARS Lab提出A2A新范式,实现机器人高性能单步动作生成
机器之心·2026-03-19 12:04

文章核心观点 - 新加坡南洋理工大学MARS Lab提出了一种名为Action-to-Action Flow Matching的新机器人动作生成范式,该范式通过将生成起点从随机噪声替换为历史机器人轨迹,显著提升了训练效率、推理速度和泛化能力,解决了扩散策略在实时控制场景中的推理延迟瓶颈 [2][5][6] 技术背景与核心范式 - 背景:扩散策略是机器人多模态动作建模的主流方法,但其依赖从随机噪声进行多步迭代解噪,推理延迟高,构成实时控制的关键瓶颈 [5] - 核心范式:A2A策略将动作生成的基准从“随机噪声”切换为“动作历史”,在更具相关性的历史与未来动作分布间建立联系,从而拉近了分布距离 [5][6] - 技术实现:在潜空间完成Flow Matching学习,将初始分布由高斯噪声替换为历史Action的编码信号,使得起点与终点的物理距离极近且分布高度对齐,仅需轻量级MLP架构与单步Euler积分即可快速生成高质量动作 [8][9] 性能表现 - 训练效率:A2A展现出极快的收敛速度,仅需少量训练轮次即可达到稳定的100%成功率,在5类仿真任务中,其成功率全面领先于8种主流方法 [11] - 具体数据:在Close Box任务中成功率为92%,Pick Cube任务为92%,Stack Cube任务为86%,Open Drawer任务为92%,Pick-Place Bowl任务为90% [13] - 推理速度:A2A实现了亚毫秒级的极致推理速度,平均延迟仅约1ms,单步推理模式下延迟低至0.56ms,比传统扩散策略快20倍,比常规流匹配方法快5倍 [13] 泛化能力 - 环境扰动:面对场景随机化、灯光扰动或视角切换,A2A的成功率均领先于现有算法,这归功于其将动作历史作为稳固先验,减少了对易受干扰视觉特征的依赖 [16] - 视觉泛化:在将抓取木块换成从未见过的发光方块的测试中,传统扩散和流匹配策略均彻底失效,而A2A仍可维持80%的高成功率 [17] - 具体数据:在Level 1扰动下,A2A (6步)成功率为38%,而VITA为4%,FM-UNet为6%,DDPM-UNet为2% [18] 发展潜力 - 当前局限:A2A目前训练过程涉及多个训练目标,如何进一步简化训练目标值得探索 [20] - 扩展应用:该逻辑普适于各类具有时间连续性的任务,研究团队已将其扩展至视频生成领域,提出F2F范式,生成的图像质量指标显著优于传统的确定性回归基准,展现了广阔的具身智能应用前景 [20]

告别噪声初始化:NTU MARS Lab提出A2A新范式,实现机器人高性能单步动作生成 - Reportify