Pixel2Play(P2P)模型
搜索文档
开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布
机器之心· 2026-01-17 11:24
行业背景与问题 - 人工智能在代码和图片生成领域日益成熟,游戏领域成为AI研究的重要方向,早期研究已在Atari、星际争霸、Dota等游戏上训练出超越人类玩家的专用模型[2] - 然而,这些专用模型缺乏跨游戏的泛化能力,只能在单一游戏环境中运行[2] - 另一方面,ChatGPT和Gemini等通用模型在众多任务上表现出色,但在游戏环境中表现不佳,即便是简单的射击游戏也难以应对[2] 解决方案:Pixel2Play (P2P) 模型 - 来自Player2的研究员提出了Pixel2Play (P2P) 模型,旨在解决上述问题[2] - P2P模型以游戏画面和文本指令作为输入,直接输出对应的键盘与鼠标操作信号[2] - 该模型在消费级显卡RTX 5090上可实现超过20Hz的端到端推理速度,能够像人类一样与游戏进行实时交互[2] - P2P作为一个通用游戏基座模型,在超过40款游戏、总计8300+小时的游戏数据上进行了训练[2] - 该模型能够以零样本 (zero-shot) 的方式直接玩Roblox和Steam平台上的多款游戏[2] 开源与数据 - Open-P2P团队在无使用许可限制的情况下,开源了全部的训练与推理代码,并公开了所有的训练数据集[3] - 训练游戏AI模型需要高质量的游戏画面、文本指令以及对应的操作数据,这类“画面-操作”数据在互联网上很少见[5] - Open-P2P项目开源的大规模高质量人工标注操作数据,弥补了该领域的空缺[5] - 训练数据同时包括游戏图像画面与对应的文本指令,并提供了精确的键盘鼠标操作标注[8] 模型设计 - 为保证快速的推理速度,P2P选择了轻量级模型框架并从零开始训练[10] - 模型主体由一个解码器Transformer构成,并额外接入一个轻量化的action-decoder来生成最终的操作信号[10] - 该结构使得模型在推理时只需对主体模型进行一次前向计算,即可生成action-decoder所需的表征信号,从而使整体推理速度提升5倍[10] - 为实现跨游戏通用性,P2P采用自回归的离散token序列作为操作输出空间,每个操作由8个token表示:4个对应键盘按键,2个对应鼠标在水平与垂直方向上的离散位移,最后两个对应鼠标按键[10] - 在输入方面,除了当前帧图像与文本指令token外,P2P还会输入真实操作token,使模型能根据历史操作做决策,更贴近人类玩家的操作习惯[10] - 为保证模型的因果关系,训练时使用了特殊的掩码机制,以确保模型在预测时仅能看见历史真实操作[10] 模型规模与性能 - P2P共训练了四个不同规模的模型,参数量分别为150M、300M、600M和1.2B[12] - 在实测中,150M模型可以达到80Hz的端到端推理速度,而最大的1.2B模型也能达到40Hz,完全满足与游戏环境实时交互的需求[12] 模型评估结果 - 模型评估主要采用人工评估,评估环境选取自四款游戏:Steam平台上的Quake、DOOM,以及Roblox平台上的Hypershot、Be a Shark[13][14] - 在模型行为评估中,1.2B模型生成的游戏录像与较小模型进行人工比对,结果显示1.2B模型分别以80%、83%与75%的偏好度优于150M、300M和600M模型[13] - 在指令遵循评估中,对于“按下红色按钮”的文本指令,未接受指令的模型通过率只有20%,而接收指令后模型的通过率可大幅提高到80%,显示出优秀的文本指令理解和执行能力[15] 因果混淆分析与规模效应 - 因果混淆是行为克隆中的常见难题,在高频交互环境中尤其突出[17] - 研究发现,扩大模型的规模与增加训练模型的数据量能够有效提升模型对因果关系的理解能力,使其不再依赖虚假关联,从而学到更好的操作策略[17] - 随着训练数据增多与模型参数量增加,P2P模型在因果推断评估中的表现呈上升趋势[19] 团队与作者 - 本文第一作者岳煜光现任初创公司Player2研究员,负责游戏模型的开发和研究[21] - 在加入Player2之前,他曾先后在Amazon和Twitter担任研究人员,致力于语言模型与推荐系统的相关研究[21]