谢赛宁也玩MC？开源全新世界模型生成多人一致的游戏视角

AI研究与游戏环境 - 电子游戏是AI领域发展的重要推动力，其构建的完整世界和易于理解的规则，可用于训练人工智能对物理世界的理解、智能体交互以及构建世界模型[1] - 在视觉相关AI研究中，《GTA》和《我的世界》是两座绕不开的“大山”，分别代表真实世界风格和虚拟自由风格[2] - 谢赛宁团队将世界模型的研究方向转向了《我的世界》[3] Solaris模型与核心贡献 - Solaris是谢赛宁团队开发的首个多人视频世界模型，能够同时生成多个玩家之间保持一致的第一视角视频[5] - 该模型的核心贡献之一是团队完全自主设计并构建的多人数据采集系统SolarisEngine，因为现有平台仅针对单人设定而设计[7] - SolarisEngine是一个可扩展的框架，支持在《我的世界》等游戏中进行协调的多智能体交互和同步视觉捕捉，由1260万帧协调的《我的世界》游戏游玩数据创建[7] 数据采集系统与数据集 - 研究团队从零开始搭建了SolarisEngine数据采集系统，因为市面上没有现成的系统可以用来采集真实的多人游戏数据[11] - 该系统以Mineflayer为基础，构建了通信层以支持机器人协作，并创建了一个涵盖建造、战斗、移动、采矿等核心交互任务的任务类型库[14] - 通过将控制机器人与摄像机机器人配对，并利用自定义服务端插件实现同步，系统解决了视觉画面提取并与动作对齐的问题[15] - 利用SolarisEngine，团队采集了首个带有动作标注、适用于训练世界模型的多人《我的世界》数据集，总计包含9240个任务回合，总计1264万帧[16][17] 模型架构与技术特点 - Solaris是一种可控的视频扩散模型，能够在给定各玩家历史观察与动作的条件下，联合预测多名玩家的未来观察结果[19] - 模型结合了流匹配与扩散强迫进行训练，其中每个玩家及每个时间步都会采样独立的噪声水平，这使得模型在学习对各玩家观察流进行去噪的同时，保持玩家间的一致性[19] - 模型基于MatrixGame 2.0构建，并进行了三项关键改进以支持多人模式：扩展动作空间、引入多人自注意力层以实现玩家间信息交换、以及添加可学习的玩家ID嵌入[20] - 该架构通过在序列维度上进行视觉交错来实现多人建模，多人信息通过一个共享的自注意力模块进行交换[22] 评估方法与实验结果 - 研究团队创建了Solaris Eval数据集，通过7个独特的、不参与训练的真值任务回合，来测试移动、定位、一致性、记忆和建造五种多人协作能力[23][24][26][28] - 在定量比较中，Solaris模型在多个评估类别中表现优于对比方法“帧拼接法”[27][29] - 具体数据：在“定位”能力上，Solaris的VLM评分为62.50，显著高于“帧拼接法”的53.13和“无预训练Solaris”的29.17；在“建造”能力上，Solaris的VLM评分为20.83，而其他两种方法均为0.00；在“一致性”能力上，Solaris的VLM评分为71.35，高于“帧拼接法”的53.11[29] - 尽管“帧拼接法”在“移动”评估中VLM评分（77.08）略高于Solaris（68.23），但定性分析发现该方法在面临“无操作”动作时会出现动作幻觉[27]