王兴兴署名，宇树机器人春晚之后又进化了：单个策略就能学习各种极限动作

核心观点 - 北京通用人工智能研究院、宇树科技等机构联合提出名为OmniXtreme的通用控制策略，首次实现了人形机器人执行各种极限动作的能力，包括连续翻转、极限平衡和霹雳舞等[3] - 该策略通过“基于流的生成控制策略预训练”与“驱动感知残差强化学习后训练”两阶段方法，成功打破了人形机器人高动态控制的“泛化壁垒”，实现了从仿真到现实的高保真迁移[4][10] - 在现实世界的宇树G1机器人上进行157次物理测试，涵盖24个高动态动作，整体平均成功率高达91.08%，其中后空翻成功率96.36%，武术动作成功率93.33%[28][29][30] 技术方法：OmniXtreme框架 - 框架设计旨在解决传统统一强化学习策略在动作库规模和多样性增加时遭遇的“性能崩溃”问题，该问题源于仿真中的学习瓶颈和真实世界的物理执行瓶颈[10] - 第一阶段：基于流的可扩展预训练 - 整合LAFAN1、AMASS、MimicKit等多个高质量动作数据集，并重定向至宇树G1机器人[13] - 利用PPO算法训练专家策略，再通过基于数据集聚合的知识蒸馏技术，将其统一融合到一个基于流匹配的生成式策略中[13] - 基于流的模型通过优化特定目标函数，学习从噪声中恢复专家动作，生成高精度的连续控制动作[17] - 第二阶段：驱动感知的后训练 - 冻结预训练的基础策略，在其之上训练一个轻量级MLP残差策略，以输出修正动作来对抗真实的硬件约束[18] - 引入了三个层面的深度建模以确保现实世界鲁棒性： 1. 激进的域随机化：将初始姿态噪声、外力干扰等参数范围大幅提升最高50%，并将终止阈值放宽1.5倍，以提供充足的探索空间[19] 2. 功率安全驱动正则化：创新性地引入针对机械功率的惩罚机制，计算关节扭矩与角速度的乘积（瞬时机械功率），并对超出安全死区的高额负功率应用严格的二次惩罚函数，重点施加于膝关节[20][22] 3. 驱动感知的扭矩与速度约束：将真实的电机运行包络线集成到仿真器，并通过对非线性摩擦项建模，精确捕捉从静摩擦到动摩擦的平滑过渡及速度相关的耗散阻尼[23] 性能表现与实验结果 - 可扩展的高保真跟踪能力 - 在仿真环境中，OmniXtreme在所有评估指标上均碾压传统基线方法（“从头训练多动作强化学习”和“专家到统一MLP蒸馏”）[27] - 在包含约60个高挑战性动作的XtremeMotion评估集上，OmniXtreme维持了极低的运动学误差和极高的成功率，而传统方法的跟踪误差显著增加[26][27] - 具体数据：在LaFAN1+XtremeMotion数据集上，OmniXtreme（预训练+后训练）的MPJPE为30.93，成功率为98.54%；在纯XtremeMotion数据集上，成功率为95.64%[28] - 打破保真度与可扩展性的权衡 - 压力测试表明，随着训练动作集从10个扩展到50个，传统从头训练强化学习基线的成功率从100%暴跌至73.9%[31] - 相比之下，OmniXtreme在50个动作的训练集下，对核心动作的跟踪成功率依然坚挺在93.3%，证明了其在高多样性下的强大韧性[34] - 模型规模的Scaling Law - 传统MLP策略在参数量扩大后很快陷入性能饱和，跟踪精度提升有限[35][37] - 基于流匹配的生成式策略完美契合Scaling Law，随着参数量向70M迈进，OmniXtreme的跟踪精度与鲁棒性呈现显著且稳定的线性增长[37] - 现实世界执行力的消融实验 - 对于翻腾动作，仅引入电机约束即可保障稳定执行[40] - 对于霹雳舞动作，需同时依赖电机约束与激进的域随机化，以在接触扰动中维持平衡[40] - 对于包含高速冲击缓冲的杂技落地动作，功率安全正则化机制至关重要，缺乏该机制会导致因电机瞬态制动而过流或电池欠压失败[40] 工程部署与硬件 - 整个推理管线使用TensorRT进行了深度优化，在宇树G1机器人的机载NVIDIA Jetson Orin NX平台上，实现了约10 ms的端到端推理延迟，完美支持50 Hz的高频闭环控制[24]