Workflow
原神Agent,字节出品
猿大侠·2025-11-16 12:11

文章核心观点 - 字节公司开发出名为Lumine的原神Agent,该智能体不仅能自主完成《原神》游戏内的跑图、战斗、解谜等复杂任务,还具备强大的跨游戏泛化能力,可在《鸣潮》、《崩坏:星穹铁道》及《黑神话:悟空》等未学习过的游戏中执行任务,代表了在3D开放世界中构建通用智能体(AGI)的重要进展[1][4][46][55] Lumine Agent的核心能力 - 在《原神》中能动态追踪敌人位置、精准射击、流畅切换角色并收集宝箱[4] - 具备超强理解能力,可应对Boss战[6]和空间感知能力,能完成沿风场收集风神瞳等解谜关卡[8] - 能在多NPC环境中锁定指定对象并完成对话[10],并通过鼠标移动完成材料制作、使用传送锚点等GUI操作[12] - 对于复杂长指令,只需提供任务先验信息或步骤即可执行,例如切换特定角色并释放技能以完成收集任务[14] 技术架构与核心机制 - 基于Qwen2-VL-7B-Base模型搭建,继承其多模态理解与生成能力[16] - 采用类人交互范式,通过统一语言空间建模所有操作和推理,实现感知、推理、行动的无缝融合[17] - 感知空间将游戏画面帧调整至720P,以每200ms速度处理一帧,并保留历史推理轨迹与动作记录以提供决策上下文[20][21] - 采用混合思考策略,仅在关键场景生成内心独白式推理,简单场景则直接输出动作以提高效率[22] - 将所有键盘与鼠标操作纳入语言空间,定义为鼠标位移和按键序列的格式[23] 三阶段训练流程 - 第一阶段预训练混合80%游戏动作数据和20%多模态网页数据,使模型掌握基础视觉运动能力,涌现出物体交互、基础战斗等核心能力[25][26] - 第二阶段指令跟随训练使用38类任务场景下的200小时数据,使模型理解自然语言指令,关联动作与语言,可完成10秒至数分钟短周期任务且成功率超80%[27][28] - 第三阶段决策推理训练使用15小时人工标注推理数据,让模型学会自主规划、反思与修正,从而能自主完成数小时以上的长周期任务[29][30] 性能优化与实验结果 - 通过上下文管理和多维度实时优化,包括滑动窗口机制与推理触发刷新策略,并将端到端延迟降至129.8ms[31][32][33] - Lumine-Base在无语言指令下,基础交互能力总成功率超90%,能自发运用元素反应和理解体力值限制等游戏机制[39] - Lumine-Instruct在语言指令驱动的短周期任务中,简单任务成功率达92.5%,困难任务成功率达76.8%,远超其他主流视觉语言模型[41] - Lumine-Thinking在长剧情任务中,完成蒙德主线第一章耗时56分钟且完成率100%,第二、三章合计耗时4.7小时且完成率98.2%[44][45] 跨游戏泛化能力 - 在相似玩法的《鸣潮》中,前100分钟剧情总耗时102分钟且完成率100%[48] - 在玩法差异较大的《崩坏:星穹铁道》中,通过第一章主线总耗时7.2小时且完成率92.3%,是唯一能完整通关的模型[48] - 在高难度3A游戏《黑神话:悟空》中,完成新手教程和第一章前半段耗时2.1小时且完成率85.7%[49] 行业趋势与意义 - 谷歌等公司也在使用游戏场景训练Agent,例如其基于Gemini模型的SIMA 2,具备遵循指令和强大推理能力[52][53] - 字节和谷歌DeepMind代表了一条清晰的Agent发展路径:在大型3D游戏中构建具身AGI,并相信游戏内的通用Agent终将进入现实物理世界[55][56]