Workflow
TinyWorlds
icon
搜索文档
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
36氪· 2025-09-28 18:51
文章核心观点 - 独立开发者成功复刻并简化了DeepMind的Genie 3世界模型,开发出仅300万参数的TinyWorlds模型,能够实时生成可交互的像素风格游戏环境 [1] - 该成果验证了世界模型通过大规模无监督视频训练可实现高级行为的涌现,并展示了小型化模型的可行性,为行业提供了可参考的开源实现方案 [2][6][23] 模型技术架构 - TinyWorlds采用自回归模型作为核心架构,因其推理速度快、训练高效且实现简洁,更适合实时交互场景 [14] - 模型由三个核心模块组成:视频分词器负责将视频压缩为token,动作分词器预测帧间动作,动力学模型结合历史信息预测未来帧 [14] - 核心技术包括时空变换器,通过空间注意力、时间注意力和前馈网络三层机制处理三维视频数据 [10] - 动作影响视频生成的方式采用了缩放与移位策略,效果优于简单的拼接动作与视频表示 [13] 训练方法与数据处理 - 模型训练数据集由处理过的YouTube游戏视频构成,涵盖Pong、Sonic、Zelda、Pole Position和Doom等多种游戏类型 [7] - 动作分词器的引入是关键创新,使模型能够利用互联网中海量的未标注视频数据进行训练 [3][18] - 训练过程中采用了掩码帧和方差损失等技术,以解决模型在训练初期容易忽略动作信号的问题 [20] - 动力学模型通过预测掩码token来学习时序关系,模型规模的扩大显著提升了生成效果 [21] 性能表现与行业意义 - TinyWorlds模型仅300万参数,已能生成可交互的像素风格世界,包括驾驶赛车、地图探索和3D地牢等场景 [23][25] - 尽管生成画面存在模糊和不连贯的问题,但已具备基本可玩性,证明了技术路径的可行性 [24] - 该成果印证了“规模与数据往往胜过技巧”的行业规律,暗示若扩展至千亿级参数并引入扩散方法,生成质量将有巨大提升空间 [24]
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
机器之心· 2025-09-28 18:29
文章核心观点 - TinyWorlds项目成功复刻了DeepMind Genie 3世界模型的核心思想,仅用300万参数即实现了实时生成可交互的像素风格环境,证明了世界模型技术路径的可扩展性和巨大潜力 [1] - 世界模型通过在海量未标注视频数据上进行规模化训练,能够自然涌现出可控性、一致性和高质量生成等高级行为,其发展逻辑类似于大型语言模型 [5][7] - 项目采用自回归生成方式,并借鉴了大语言模型的优化技巧,其成功再次印证了“规模与数据往往胜过技巧”的行业经验 [20][32] 世界模型技术原理 - 世界模型是一类通过生成视频来模拟物理世界的神经网络,其关键挑战在于训练通常需要逐帧的动作标签 [5] - Genie的解决方案是先训练一个动作分词器来自动推断帧间动作标签,从而将海量未标注视频转化为可用训练资源,这是模型能够扩展至数百万小时YouTube视频的关键 [5][7] - 模型涌现出的高级能力包括:按下方向键镜头随之平移的可控性、离开房间再返回墙上新油漆依旧存在的一致性、以及水坑中倒影清晰可见的生成质量 [8] TinyWorlds架构设计 - 模型核心是一个时空变换器,通过空间注意力(同一帧内部token关联)、时间注意力(token关注前几个时间步信息)和前馈网络(token非线性处理提取高阶特征)三层机制捕捉视频三维信息 [15][21] - 最终架构由三个模块组成:视频分词器(将视频压缩为token)、动作分词器(预测两帧间动作)和动力学模型(结合历史视频和动作预测未来帧) [22] - 在动作影响视频生成的方式上,实验表明利用动作对表示进行缩放与移位比拼接动作与视频表示效果更好 [17] 训练与优化策略 - 视频分词器通过有限标量量化(FSQ)将图像划分为立方体来表示图像块,产生的小token信息密集,减轻了动力学模型的预测负担 [24] - 为解决动作分词器在训练初期易忽略动作信号的问题,引入了掩码帧(迫使模型依赖动作)和方差损失(鼓励编码器覆盖更多可能性) [28] - 动力学模型训练中通过预测掩码token学习时序关系,最初因模型过小导致性能停滞和输出模糊,扩大规模后效果显著提升 [30] 性能表现与未来展望 - 尽管生成的画面仍显模糊和不连贯,但TinyWorlds已能生成具备可玩性的环境,包括驾驶《Pole Position》中的赛车、在《Zelda》地图上探索以及进入《Doom》的3D地牢 [32][33] - 作者认为若将模型扩展至千亿级参数并引入扩散方法,生成质量将会有巨大提升 [32] - 项目完整经验已分享并开源代码,数据集由处理过的YouTube游戏视频构成,包括Pong、Sonic、Zelda、Pole Position和Doom等多类游戏 [3][12][15]