大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
36氪·2025-09-28 18:51

文章核心观点 - 独立开发者成功复刻并简化了DeepMind的Genie 3世界模型,开发出仅300万参数的TinyWorlds模型,能够实时生成可交互的像素风格游戏环境 [1] - 该成果验证了世界模型通过大规模无监督视频训练可实现高级行为的涌现,并展示了小型化模型的可行性,为行业提供了可参考的开源实现方案 [2][6][23] 模型技术架构 - TinyWorlds采用自回归模型作为核心架构,因其推理速度快、训练高效且实现简洁,更适合实时交互场景 [14] - 模型由三个核心模块组成:视频分词器负责将视频压缩为token,动作分词器预测帧间动作,动力学模型结合历史信息预测未来帧 [14] - 核心技术包括时空变换器,通过空间注意力、时间注意力和前馈网络三层机制处理三维视频数据 [10] - 动作影响视频生成的方式采用了缩放与移位策略,效果优于简单的拼接动作与视频表示 [13] 训练方法与数据处理 - 模型训练数据集由处理过的YouTube游戏视频构成,涵盖Pong、Sonic、Zelda、Pole Position和Doom等多种游戏类型 [7] - 动作分词器的引入是关键创新,使模型能够利用互联网中海量的未标注视频数据进行训练 [3][18] - 训练过程中采用了掩码帧和方差损失等技术,以解决模型在训练初期容易忽略动作信号的问题 [20] - 动力学模型通过预测掩码token来学习时序关系,模型规模的扩大显著提升了生成效果 [21] 性能表现与行业意义 - TinyWorlds模型仅300万参数,已能生成可交互的像素风格世界,包括驾驶赛车、地图探索和3D地牢等场景 [23][25] - 尽管生成画面存在模糊和不连贯的问题,但已具备基本可玩性,证明了技术路径的可行性 [24] - 该成果印证了“规模与数据往往胜过技巧”的行业规律,暗示若扩展至千亿级参数并引入扩散方法,生成质量将有巨大提升空间 [24]