MVP (Mean Velocity Policy) - 财报，业绩电话会，研报，新闻

MVP (Mean Velocity Policy)

搜索文档

ICLR 2026 Oral | 告别多步去噪！清华团队推出MVP，实现机器人动作单步极速生成

机器之心· 2026-03-16 18:23

研究背景与行业痛点 - 在具身智能和机器人控制领域，面对复杂任务时，最优动作通常呈现多模态分布，传统单高斯策略难以应对[6] - 基于扩散模型或流匹配的生成式策略虽然表达能力强，但通常依赖几十甚至上百步的迭代去噪，导致推理延迟极高，难以满足机器人高频控制的实时性要求[6] - 行业此前尝试通过大步长离散化或单步蒸馏等技术优化推理速度，但往往以牺牲生成质量为代价，陷入速度与精度难以两全的瓶颈[6] 核心研究成果与突破点 - 清华大学与加州大学伯克利分校联合提出MVP（Mean Velocity Policy），一种建模均值速度场的新型生成式策略，旨在突破生成式强化学习的效率与质量瓶颈[4] - 该研究实现了从噪声直接映射到动作的极致单步生成，彻底消除了传统生成式策略的多步迭代计算开销[4] - MVP框架兼具生成式策略的“高表达能力”与单步生成的“高时间效率”，解决了实时控制的痛点[9] 核心技术一：瞬时速度约束与均值流策略 - MVP另辟蹊径，直接建模时间区间内的均值速度，而非传统方法学习的瞬时速度，这使得网络能够直接学习如何“跨越时间”，在推理阶段实现单步跳跃[11] - 单纯学习均值速度存在理论困局，即描述均值速度的常微分方程存在无穷多组解，会导致神经网络训练时陷入不确定性和拟合偏差[11] - 研究引入了瞬时速度约束作为关键的边界条件，其物理直觉是：在时间间隔趋于零的极限下，均值速度必须收敛于瞬时速度[12] - 理论证明，最小化IVC Loss可以强制积分常数误差归零，从而为ODE提供了唯一的边界条件，极大地提升了策略拟合的精度与稳定性[13][14] 核心技术二：复合生成与选择机制 - 为实现生成式策略在强化学习中的性能提升，MVP采用了Generate-and-Select（复合生成与选择）机制，以自举方式进行动作优选与匹配[16] - 机制首先利用GPU并行能力快速生成N个候选动作，然后利用Q函数对候选动作进行精确评分，锁定最优执行方案[17][18] - 理论证明该机制能确保策略性能的单调提升，将增益拆解为严格非负的Best-Select优势与拟合误差，为MVP的收敛性和最优性提供了严格的数学保障[18] 实验性能与行业影响 - 在Robomimic和OGBench两大主流机器人操作基准的9个稀疏奖励任务测试中，MVP在绝大多数任务上都取得了SOTA性能[20] - 在长视距、高难度的方块错位重排任务中，MVP表现出更快的在线收敛速度和更高的最终性能[20] - 根据实验结果表格，MVP在测试的9个任务中平均成功率达到了0.88 ± 0.05，优于对比方法[21] - 得益于单步生成特性，MVP在计算效率上展现压倒性优势：在线训练吞吐量提升超过50%，推理延迟压低至毫秒量级，而对比的生成式流模型方法则需要百毫秒量级[27]

MVP (Mean Velocity Policy)

MVP (Mean Velocity Policy)