让机器人在“想象”中学习世界的模型来了,PI联创课题组&清华陈建宇团队联合出品
核心技术突破 - 提出可控生成世界模型Ctrl-World,使机器人能在“想象空间”中进行任务预演、策略评估与自我迭代[4] - 模型核心创新包括多视角联合预测、帧级动作条件控制和姿态条件记忆检索三大技术,解决了传统世界模型的单视角幻觉、动作控制不精细和长时一致性差三大痛点[10][13][21] - 该模型使用零真机数据,将下游任务的指令跟随成功率从38.7%提升至83.4%,平均改进幅度达44.7%[4][36] 技术细节与性能 - 多视角联合预测结合第三人称全局视角与腕部第一视角,通过空间Transformer实现跨视角空间关系对齐,峰值信噪比达23.56,结构相似性达0.828,显著优于传统单视角模型[15][17][27] - 帧级动作控制将机器人动作序列与视觉预测严格绑定,实现厘米级精准操控,移除该条件后模型PSNR从23.56降至21.20[18][20] - 姿态条件记忆检索机制通过检索相似历史帧校准预测,使模型能稳定生成20秒以上连贯轨迹,时序一致性指标FVD仅97.4,远低于基线模型[21][25][26] 行业应用价值 - 模型能将机器人策略评估周期从“周级”缩短至“小时级”,虚拟预演与真实世界的指令跟随率和任务成功率相关系数分别达0.87和0.81[30][31][33] - 通过生成400条虚拟轨迹对基础策略进行微调,可将调试成本降至传统专家数据方法的1/20,显著降低工业机械臂调试和家庭服务机器人适配的成本[34][36][41] - 技术有望成为机器人通用训练平台,推动人形机器人在开放世界场景中的应用,解决策略评估成本高、数据永远不够用的行业核心难题[7][8][39]