Workflow
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
机器之心·2025-09-28 18:29

文章核心观点 - TinyWorlds项目成功复刻了DeepMind Genie 3世界模型的核心思想,仅用300万参数即实现了实时生成可交互的像素风格环境,证明了世界模型技术路径的可扩展性和巨大潜力 [1] - 世界模型通过在海量未标注视频数据上进行规模化训练,能够自然涌现出可控性、一致性和高质量生成等高级行为,其发展逻辑类似于大型语言模型 [5][7] - 项目采用自回归生成方式,并借鉴了大语言模型的优化技巧,其成功再次印证了“规模与数据往往胜过技巧”的行业经验 [20][32] 世界模型技术原理 - 世界模型是一类通过生成视频来模拟物理世界的神经网络,其关键挑战在于训练通常需要逐帧的动作标签 [5] - Genie的解决方案是先训练一个动作分词器来自动推断帧间动作标签,从而将海量未标注视频转化为可用训练资源,这是模型能够扩展至数百万小时YouTube视频的关键 [5][7] - 模型涌现出的高级能力包括:按下方向键镜头随之平移的可控性、离开房间再返回墙上新油漆依旧存在的一致性、以及水坑中倒影清晰可见的生成质量 [8] TinyWorlds架构设计 - 模型核心是一个时空变换器,通过空间注意力(同一帧内部token关联)、时间注意力(token关注前几个时间步信息)和前馈网络(token非线性处理提取高阶特征)三层机制捕捉视频三维信息 [15][21] - 最终架构由三个模块组成:视频分词器(将视频压缩为token)、动作分词器(预测两帧间动作)和动力学模型(结合历史视频和动作预测未来帧) [22] - 在动作影响视频生成的方式上,实验表明利用动作对表示进行缩放与移位比拼接动作与视频表示效果更好 [17] 训练与优化策略 - 视频分词器通过有限标量量化(FSQ)将图像划分为立方体来表示图像块,产生的小token信息密集,减轻了动力学模型的预测负担 [24] - 为解决动作分词器在训练初期易忽略动作信号的问题,引入了掩码帧(迫使模型依赖动作)和方差损失(鼓励编码器覆盖更多可能性) [28] - 动力学模型训练中通过预测掩码token学习时序关系,最初因模型过小导致性能停滞和输出模糊,扩大规模后效果显著提升 [30] 性能表现与未来展望 - 尽管生成的画面仍显模糊和不连贯,但TinyWorlds已能生成具备可玩性的环境,包括驾驶《Pole Position》中的赛车、在《Zelda》地图上探索以及进入《Doom》的3D地牢 [32][33] - 作者认为若将模型扩展至千亿级参数并引入扩散方法,生成质量将会有巨大提升 [32] - 项目完整经验已分享并开源代码,数据集由处理过的YouTube游戏视频构成,包括Pong、Sonic、Zelda、Pole Position和Doom等多类游戏 [3][12][15]