Workflow
MVP (Mean Velocity Policy)
icon
搜索文档
ICLR 2026 Oral | 告别多步去噪!清华团队推出MVP,实现机器人动作单步极速生成
机器之心· 2026-03-16 18:23
研究背景与行业痛点 - 在具身智能和机器人控制领域,面对复杂任务时,最优动作通常呈现多模态分布,传统单高斯策略难以应对[6] - 基于扩散模型或流匹配的生成式策略虽然表达能力强,但通常依赖几十甚至上百步的迭代去噪,导致推理延迟极高,难以满足机器人高频控制的实时性要求[6] - 行业此前尝试通过大步长离散化或单步蒸馏等技术优化推理速度,但往往以牺牲生成质量为代价,陷入速度与精度难以两全的瓶颈[6] 核心研究成果与突破点 - 清华大学与加州大学伯克利分校联合提出MVP(Mean Velocity Policy),一种建模均值速度场的新型生成式策略,旨在突破生成式强化学习的效率与质量瓶颈[4] - 该研究实现了从噪声直接映射到动作的极致单步生成,彻底消除了传统生成式策略的多步迭代计算开销[4] - MVP框架兼具生成式策略的“高表达能力”与单步生成的“高时间效率”,解决了实时控制的痛点[9] 核心技术一:瞬时速度约束与均值流策略 - MVP另辟蹊径,直接建模时间区间内的均值速度,而非传统方法学习的瞬时速度,这使得网络能够直接学习如何“跨越时间”,在推理阶段实现单步跳跃[11] - 单纯学习均值速度存在理论困局,即描述均值速度的常微分方程存在无穷多组解,会导致神经网络训练时陷入不确定性和拟合偏差[11] - 研究引入了瞬时速度约束作为关键的边界条件,其物理直觉是:在时间间隔趋于零的极限下,均值速度必须收敛于瞬时速度[12] - 理论证明,最小化IVC Loss可以强制积分常数误差归零,从而为ODE提供了唯一的边界条件,极大地提升了策略拟合的精度与稳定性[13][14] 核心技术二:复合生成与选择机制 - 为实现生成式策略在强化学习中的性能提升,MVP采用了Generate-and-Select(复合生成与选择)机制,以自举方式进行动作优选与匹配[16] - 机制首先利用GPU并行能力快速生成N个候选动作,然后利用Q函数对候选动作进行精确评分,锁定最优执行方案[17][18] - 理论证明该机制能确保策略性能的单调提升,将增益拆解为严格非负的Best-Select优势与拟合误差,为MVP的收敛性和最优性提供了严格的数学保障[18] 实验性能与行业影响 - 在Robomimic和OGBench两大主流机器人操作基准的9个稀疏奖励任务测试中,MVP在绝大多数任务上都取得了SOTA性能[20] - 在长视距、高难度的方块错位重排任务中,MVP表现出更快的在线收敛速度和更高的最终性能[20] - 根据实验结果表格,MVP在测试的9个任务中平均成功率达到了0.88 ± 0.05,优于对比方法[21] - 得益于单步生成特性,MVP在计算效率上展现压倒性优势:在线训练吞吐量提升超过50%,推理延迟压低至毫秒量级,而对比的生成式流模型方法则需要百毫秒量级[27]