Workflow
MeanFlow再下一城,北大提出机器人学习新范式MP1,实现速度与成功率双SOTA
机器之心·2025-07-24 17:33

核心观点 - MP1是一种全新的机器人学习框架,首次将MeanFlow范式引入机器人学习,实现毫秒级推理速度,为VLA动作生成模型打下基础[4] - MP1通过MeanFlow Identity直接建模平均速度场,无需积分求解,实现单次确定性前向传播,保证实时性[8][9] - MP1引入分散损失解决表征坍塌问题,提升少样本泛化能力,在极少量示教数据下仍能高效学习[11][12] - MP1在37个复杂操作任务测试中平均成功率78.9%,比FlowPolicy和DP3分别提升7.3%和10.2%[16] - MP1平均推理耗时仅6.8ms,比FlowPolicy快2倍,比DP3快19倍,完全满足实时控制需求[18][19] MP1核心技术 - 采用MeanFlow范式,直接学习从初始噪声到目标动作的区间平均速度场,摆脱传统Flow Matching的迭代式ODE求解[8] - 通过MeanFlow Identity实现单次前向传播生成完整动作轨迹,推理时间高度稳定[9] - 分散损失强制不同状态表征在特征空间相互分散,提升模型区分细微场景差异的能力[11] - 分散损失仅在训练时生效,不增加推理开销,保持毫秒级响应速度[12] 性能表现 - 在Adroit和Meta-World基准测试中,MP1平均成功率78.9%,最高难度任务上比FlowPolicy提升15%[16][17] - 成功率标准差仅±2.1%,远低于其他方法,证明结果高度可靠[17] - 在NVIDIA RTX 4090 GPU上平均推理耗时6.8ms,最快可达6.7ms[18][19] - 真机验证中,Hummer任务成功率90%,比FlowPolicy高20%,平均耗时仅18.6秒[23] 少样本学习 - MP1在所有数据量级上均优于FlowPolicy,尤其在2-5个示教的极端少样本场景表现突出[21] - 分散损失通过优化内部表征空间,显著提升策略少样本学习的泛化能力[21] - 该特性可大幅降低真机部署时的数据需求[12][21]