Workflow
让机器人在“想象”中学习世界的模型来了!PI联创课题组&清华陈建宇团队联合出品
量子位·2025-10-30 16:39

文章核心观点 - 斯坦福与清华大学团队联合提出可控生成世界模型Ctrl-World,该模型通过让机器人在虚拟“想象空间”中进行任务预演和策略迭代,显著提升了机器人策略在下游任务中的性能,成功率从38.7%提升至83.4%,平均改进幅度达44.7% [4][5][49] - 该模型解决了机器人训练在真实世界中面临的高成本、低效率以及数据稀缺的核心难题,通过三项关键技术实现了高保真、可控制、长连贯的虚拟预演,将策略评估周期从“周级”缩短至“小时级” [7][12][44] - 此项技术构建了“虚拟预演-评估-优化-真实部署”的新闭环,有望成为机器人的通用训练平台,对工业自动化和家庭服务机器人等领域具有重大应用价值,可大幅降低调试成本并加速适配个性化任务 [53][55][56][57] 研究背景与动因 - 当前视觉-语言-动作模型在开放世界场景下面临两大核心难题:策略评估成本高昂,真实测试存在机械臂碰撞(故障率约5%-8%)、物体损坏(单轮测试成本超千元)等问题,评估周期长达数天;策略迭代困难,传统改进方式依赖人类专家标注新数据,标注100条高质量轨迹需资深工程师20小时,成本超万元,无法覆盖所有场景 [7][8][9] - 传统世界模型存在三大关键局限,阻碍其支持策略在环推演:单视角预测导致部分可观测性问题和高幻觉率;动作控制不精细,无法反映细微动作差异;长时一致性差,预测10秒后即出现显著时序漂移,失去参考价值 [10][11] 模型核心技术突破 - 多视角联合预测:模型创新性地联合生成第三方全局视角和腕部第一视角,通过空间Transformer实现跨视角空间关系对齐,解决了视野盲区问题,使物体交互幻觉率降低;定量数据显示其峰值信噪比达23.56,结构相似性达0.828,远超传统单视角模型 [16][17][20][21][23] - 帧级动作控制:通过将机器人动作序列转化为机械臂姿态参数,并利用帧级交叉注意力模块实现每一帧视觉预测与对应姿态的严格绑定,实现了厘米级的精准操控;消融实验显示,移除该功能后模型PSNR从23.56降至21.20 [24][25][29][30] - 姿态条件记忆检索:引入记忆检索机制,通过稀疏采样历史帧并以姿态信息进行锚定,有效解决了长时预演的时序漂移问题;该机制使模型能稳定生成20秒以上的连贯轨迹,时序一致性指标FVD低至97.4,远优于基线模型 [31][32][35][36] 实验验证与性能表现 - 生成质量:在10秒长轨迹生成测试中,Ctrl-World在多项核心指标上全面领先基线模型,包括PSNR(23.56)、SSIM(0.828)、LPIPS(0.091)和FVD(97.4),证明其虚拟画面与真实场景的高度契合 [38][39][40][46] - 策略评估准确性:虚拟预演的“指令跟随率”与真实世界的相关系数达0.87,“任务成功率”与真实世界的相关系数达0.81,表明无需启动真实机器人即可准确判断策略性能 [41][42][43] - 策略优化效果:通过在虚拟空间中生成400条陌生任务轨迹并筛选出25-50条成功轨迹用于微调,使基础策略π₀.₅在多项任务上成功率大幅提升,例如空间理解任务从28.75%升至87.5%,新物体抓取任务从25%升至75%,整体成功率从38.7%提升至83.4% [45][48][49][54] 行业应用与未来展望 - 该技术对工业场景价值显著,可将单条生产线机械臂调试周期从1周缩短至1天,大幅降低调试成本;对家庭服务机器人,则能快速适配操作异形水杯、整理不规则衣物等个性化任务 [56][57] - 未来研究方向包括将视频生成与强化学习结合以实现自主探索,以及扩大训练数据集以提升对复杂物理场景和极端环境的适配能力,推动人形机器人更快走向开放世界 [51][52][53]