入职第三年,团队连斩CVPR三奖:南加州王越的PSI Lab做对了什么?
机器之心·2026-06-09 13:30

南加州大学PSI实验室及其研究方向 - 王越领导的PSI Lab是具身智能领域快速崛起的年轻团队,专注于3D世界理解、物理感知与真实机器人任务的交叉研究[1] - 实验室研究方向覆盖人形机器人、灵巧操作、从人类视频学习机器人策略以及面向真实部署的数据和学习系统[2] - 实验室在CVPR 2026上获得三项最佳论文奖,获奖工作分别关注人形机器人的数据、基础动作模型和物理世界预测,构成了完整的研发路径[6][7] 人形机器人基础模型框架 (Psi-0) - Psi-0是一个面向通用人形机器人移动操作的基础模型框架,旨在处理移动与操作结合的复杂任务[9][10][11] - 模型采用分阶段训练策略:首先使用约829小时第一人称人类视频进行预训练,学习操作先验[13][14];其次用约31小时人形机器人轨迹进行后训练,实现与机器人身体结构的对齐[14];最后用少量目标任务数据完成适配[15] - 该框架的核心创新在于数据组织,利用人类视频提供规模化先验,机器人数据完成具身对齐,而非简单混合所有数据[15][16] 物理世界模型 (PhysWorld) - PhysWorld致力于构建一个能生成物理可执行预测的世界模型,而不仅是视觉合理的视频[17][18][25] - 其流程分为三步:生成任务相关视频、重建物理世界形成物体中心场景表示、通过物体中心残差强化学习将预测转化为可执行轨迹[22][23][24] - 该模型的关键价值在于将世界模型的预测接入机器人训练与控制闭环,关注物理可执行性[25] 人形机器人数据集与评测平台 (Humanoid Everyday) - Humanoid Everyday是一个面向开放世界人形操作的综合性数据集与评测平台,包含260个任务、7个任务类别、1.03万条轨迹和超过300万帧多模态数据[27][30] - 数据集涵盖RGB、深度、LiDAR、触觉和自然语言标注,并提供了云端评测平台以实现方法在统一环境下的部署与比较[30][31] - 该平台的价值在于为开放世界人形操作建立了可训练、可评测、可复现的研究框架,是基础模型训练的关键数据基础设施[32][33] 对人形机器人技术发展的核心判断 - 人形机器人需要一套为其重新设计的、机器人原生的基础模型框架,不能直接套用视觉或语言模型的范式[40] - 世界模型对机器人的核心价值在于物理可执行性,即预测能否进入控制闭环并帮助决策,而非视频生成质量[41] - 人形机器人基础能力的形成依赖于数据底座、机器人原生模型和物理世界预测三者构成的系统闭环,而非单纯扩大模型规模[38][42]

入职第三年,团队连斩CVPR三奖:南加州王越的PSI Lab做对了什么? - Reportify