Workflow
GR00T N1.6
icon
搜索文档
Ψ₀刚刚开源了!迈向通用人形机器人的基座模型
机器之心· 2026-03-25 13:00
人形机器人通用移动操作基座模型Ψ₀的技术突破 - 南加州大学Psi-Lab团队联合NVIDIA与WorldEngine开源了通用人形机器人基座模型Ψ₀,该模型在总体任务成功率和子任务指标上,平均领先NVIDIA最新开源模型GR00T N1.6超过40% [2] - 该模型仅需80条真机遥操作数据即可掌握长程移动操作能力,在八个包含移动与灵巧操作的长程任务评测中表现优异 [5] 数据采集与处理方案 - 团队提出了一套定制化遥操作框架,将上半身姿态、灵巧手与行走控制三者解耦,实现单人完成全身控制 [8] - 该方案通过PICO头显、手腕追踪器、MANUS数据手套以及腰部和脚部追踪器采集数据,有效规避了视觉VR追踪中常见的遮挡与丢失问题,提升了追踪精度与系统可靠性 [8] 分阶段训练范式 - 研究团队提出了一种分阶段训练范式,以解耦并最大化利用人类视频与机器人数据这两种异构数据的价值,而非简单混合训练 [10] - **第一阶段预训练**:基于EgoDex(约829小时人类第一人称灵巧操作视频)和Humanoid Everyday(约31小时、覆盖260种任务的人形机器人数据)数据集,使视觉语言模型学习操作语义与视觉表征 [13] - **第二阶段后训练**:冻结预训练好的VLM参数,从零训练动作专家模块,利用跨任务的真实人形机器人数据学习生成精确的关节空间动作序列 [14][15] - **第三阶段微调**:在少量领域内遥操作数据上进行端到端微调,快速习得长时域、高灵巧度的全身操作能力 [16] 解耦的模型架构设计 - 模型架构遵循“解耦”理念,将视觉理解、动作生成与底层运动控制拆分为三个协同模块 [20] - **System-2视觉语言骨干网络**:选用Qwen3-VL-2B-Instruct作为基座模型,负责理解视觉场景与语言指令 [21] - **System-1多模态扩散Transformer动作专家**:一个约5亿参数的模块,在VLM特征引导下,基于Flow Matching的MM-DiT架构预测全身动作序列 [22] - **System-0强化学习运动控制器**:采用现成的AMO控制器,将动作专家输出的下半身高层指令映射为15个自由度下半身关节角 [23] - 三个系统协同输出43个自由度的全身控制动作,实现灵巧操作与稳定移动 [24] 实时控制与部署优化 - 为解决大规模模型推理延迟导致动作不连续的问题,团队在训练阶段引入了实时动作分块机制,使模型能够输出连贯一致的未来动作序列,实现稳定流畅的实时控制 [26][27] 真机评测表现 - 在仅使用约800小时人类视频数据和30小时真机数据训练的情况下,Ψ₀在八个真实场景的长时域操作任务评估中,整体成功率显著领先现有基线方法 [29] - Ψ₀的平均整体成功率比排名第二的GR00T-N1.6高出至少40%,而这些基线方法通常使用的训练数据规模超过Ψ₀的10倍 [33] - 评测任务涵盖抓取放置、推物、擦拭、拧水龙头、勾出薯片托盘、行走转向等多种高难度日常场景 [31] 核心洞察与未来展望 - 研究结果表明,有效的性能提升并非单纯堆积数据,而是用合适的数据以正确的方式进行组合与训练 [40] - 高质量的第一人称人类操作数据与领域特定的真机轨迹数据的组合,能够带来显著优异的性能表现 [40] - 随着模型记忆能力增强、更灵巧机械手引入以及触觉等多模态感知加入,机器人将逐步具备更强的理解、学习与适应能力,推动通用机器人迈向开放未来 [40]