清华研究生开源大一统世界模型：性能超越硅谷标杆40%！

Motus模型的技术突破与核心架构 - 由生数科技联合清华大学正式开源大一统世界模型Motus，首次在单一架构内整合了视觉-语言-动作、世界模型、视频生成、逆动力学、视频-动作联合预测五种具身智能范式，实现了“看-想-动”的完美闭环 [3][4] - 核心技术为Mixture-of-Transformer架构配合Tri-model Joint Attention机制，将理解专家、视频生成专家和动作专家集成，使模型能同时进行感知、预测和决策 [14][15][16] - 创新性地采用潜动作策略，利用光流技术和Delta Action机制从无动作标签的互联网视频中提取通用物理交互先验，解决了机器人真机数据昂贵稀少的难题 [19][22][25] 卓越的性能表现与扩展性验证 - 在RoboTwin 2.0仿真榜单的50项通用任务测试中，Motus的平均成功率达到了88%，相比国际顶尖模型Pi-0.5的绝对成功率提升了35%以上，最高提升幅度达40% [5][30] - 在高难度任务中表现突出，例如在“叠三个碗”任务中，成功率从基线模型的不足16%飙升至95% [30][31] - 实验证明了Motus在具身智能领域成功复刻了Scaling Law，随着训练任务和数据量增加，模型性能持续上升，展现出跨任务的通用泛化能力，而传统模型则出现过拟合 [29][32][33][34] 创新的训练方法与数据效率 - 构建了一套三阶段训练流程，通过数据金字塔和潜动作，将通用物理动力学常识“蒸馏”为精确的机器人控制能力 [26][28] - 训练数据来源广泛，涵盖互联网视频、人类第一视角视频、合成数据、多机器人任务轨迹及目标机器人真机数据 [25][27] - 数据显示，Motus的数据效率比对比模型提升了13.55倍，即达到同等性能水平所需的数据量仅为对手的十几分之一 [37] 团队背景与行业影响 - 项目由清华大学计算机系TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷共同领衔，团队成员均来自该实验室 [4][38][39][40] - 联合发布方生数科技坚持“视频大模型是通往AGI的核心路径”的战略，Motus是其在该战略下的重要布局，标志着机器人从“机械执行”向“端到端智能”的跨越 [41][42][43][44] - 该研究是产学研协作的成果，结合了生数科技在多模态大模型上的积累与清华团队的顶尖算法能力，公司在相关领域的研究领先行业2至6个月 [44] 实际应用与任务演示 - 模型在Cloudflare人机验证任务中能精准识别并操作不规则曲面物体，平稳连续地移动并完成精准点击 [6] - 能够完成长程多步推理任务，如孔明棋，以及处理柔性物体形变的高难度任务，如叠衣服，过程丝滑顺畅 [7][8] - 在真机测试的多个子任务中表现优异，例如在“抓取立方体”任务中部分成功率可达100%，在“用滴滤咖啡机煮咖啡”任务中部分成功率达62% [36]