人类自然交互
搜索文档
 字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!
 量子位· 2025-10-30 18:31
 产品核心创新 - 字节跳动Seed团队开发的通用型游戏智能体Game-TARS,其核心创新在于采用“人类自然交互”方式,让智能体像真人一样使用键盘和鼠标操作游戏,而非调用特定函数或API [3][6][9] - 该智能体专注于最底层的“人类动作”,定义了一个可扩展、统一的键盘-鼠标动作空间,使动作指令集与任何特定应用或操作系统解耦,极大地提高了可扩展性和泛化性 [9][10][33] - 智能体将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型中,无需为每款游戏编写特定代码即可自主学习操作 [12][13]   技术架构与训练方法 - 基于超过5000亿标注量级的多模态训练数据进行大规模预训练,结合稀疏推理与衰减持续损失来提升性能 [4][17][19] - 训练采用ReAct范式,通过“离线思维链+在线边做边说”的方式生成原生、即时的推理序列,并利用视觉锚点因果对齐技术确保训练数据的因果一致性 [17][18] - 引入指数衰减权重解决“行为惯性”问题,对连续重复动作按指数降低权重,使模型更专注于高熵动作转变 [19] - 训练分为持续预训练和后训练两个阶段,预训练数据超过2万小时(约5000亿token),后训练阶段对约200亿高质量token进行微调,并引入跨领域数据以扩展能力 [20][22][23]   性能表现与评估 - 在《我的世界》中的测试表明,基于统一动作空间的Game-TARS表现比以前最先进的专家模型提高了约2倍 [24][28] - 在FPS游戏、开放世界、WEB游戏等任务中,其迷你版本(GameTARS-MoE-mini)的表现超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet等知名模型 [5][29] - 实验证明该智能体在训练和推理过程中均具有可扩展性,统一动作空间为实现通用智能体提供了卓越的基础 [27][31][34]