原神Agent，字节出品

文章核心观点 - 字节公司开发出名为Lumine的原神Agent，该智能体不仅能自主完成《原神》游戏内的跑图、战斗、解谜等复杂任务，还具备强大的跨游戏泛化能力，可在《鸣潮》、《崩坏：星穹铁道》及《黑神话：悟空》等未学习过的游戏中执行任务，代表了在3D开放世界中构建通用智能体（AGI）的重要进展[1][4][46][55] Lumine Agent的核心能力 - 在《原神》中能动态追踪敌人位置、精准射击、流畅切换角色并收集宝箱[4] - 具备超强理解能力，可应对Boss战[6]和空间感知能力，能完成沿风场收集风神瞳等解谜关卡[8] - 能在多NPC环境中锁定指定对象并完成对话[10]，并通过鼠标移动完成材料制作、使用传送锚点等GUI操作[12] - 对于复杂长指令，只需提供任务先验信息或步骤即可执行，例如切换特定角色并释放技能以完成收集任务[14] 技术架构与核心机制 - 基于Qwen2-VL-7B-Base模型搭建，继承其多模态理解与生成能力[16] - 采用类人交互范式，通过统一语言空间建模所有操作和推理，实现感知、推理、行动的无缝融合[17] - 感知空间将游戏画面帧调整至720P，以每200ms速度处理一帧，并保留历史推理轨迹与动作记录以提供决策上下文[20][21] - 采用混合思考策略，仅在关键场景生成内心独白式推理，简单场景则直接输出动作以提高效率[22] - 将所有键盘与鼠标操作纳入语言空间，定义为鼠标位移和按键序列的格式[23] 三阶段训练流程 - 第一阶段预训练混合80%游戏动作数据和20%多模态网页数据，使模型掌握基础视觉运动能力，涌现出物体交互、基础战斗等核心能力[25][26] - 第二阶段指令跟随训练使用38类任务场景下的200小时数据，使模型理解自然语言指令，关联动作与语言，可完成10秒至数分钟短周期任务且成功率超80%[27][28] - 第三阶段决策推理训练使用15小时人工标注推理数据，让模型学会自主规划、反思与修正，从而能自主完成数小时以上的长周期任务[29][30] 性能优化与实验结果 - 通过上下文管理和多维度实时优化，包括滑动窗口机制与推理触发刷新策略，并将端到端延迟降至129.8ms[31][32][33] - Lumine-Base在无语言指令下，基础交互能力总成功率超90%，能自发运用元素反应和理解体力值限制等游戏机制[39] - Lumine-Instruct在语言指令驱动的短周期任务中，简单任务成功率达92.5%，困难任务成功率达76.8%，远超其他主流视觉语言模型[41] - Lumine-Thinking在长剧情任务中，完成蒙德主线第一章耗时56分钟且完成率100%，第二、三章合计耗时4.7小时且完成率98.2%[44][45] 跨游戏泛化能力 - 在相似玩法的《鸣潮》中，前100分钟剧情总耗时102分钟且完成率100%[48] - 在玩法差异较大的《崩坏：星穹铁道》中，通过第一章主线总耗时7.2小时且完成率92.3%，是唯一能完整通关的模型[48] - 在高难度3A游戏《黑神话：悟空》中，完成新手教程和第一章前半段耗时2.1小时且完成率85.7%[49] 行业趋势与意义 - 谷歌等公司也在使用游戏场景训练Agent，例如其基于Gemini模型的SIMA 2，具备遵循指令和强大推理能力[52][53] - 字节和谷歌DeepMind代表了一条清晰的Agent发展路径：在大型3D游戏中构建具身AGI，并相信游戏内的通用Agent终将进入现实物理世界[55][56]