文章核心观点 - 淘天集团未来生活实验室团队提出的CombatVLA模型在3D动作角色扮演游戏的战斗任务中表现出色,成功率超越GPT-4o和人类玩家 [1][4] - CombatVLA是一个3B级别的多模态大模型,通过动作思维(AoT)序列训练,实现了高效战斗决策和50倍加速 [4][8] - 该模型解决了3D战斗场景中的三大挑战:视觉感知、战斗推理和高效推理,并在战斗理解基准测试中全面超越现有模型 [6][11][46] CombatVLA概览 - 视觉-语言-动作模型(VLA)结合视觉、语义和动作控制,推动具身智能发展 [6] - 3D战斗场景面临视觉感知、战斗推理和高效推理三大挑战,现有方案存在泛化能力弱和推理延迟高的问题 [6][7] - CombatVLA基于3B参数规模,能处理视觉输入并输出具体可执行的动作指令,支持键鼠操作 [8] 动作追踪器和评测基准 - 团队开发了动作跟踪器,自动采集大规模训练数据,并建立了战斗理解评测基准CUBench [12][15] - CUBench涵盖信息获取、理解和推理三项核心能力,包含914条数据用于全面测试模型的战斗理解能力 [20][21] - 动作跟踪器在后台运行,监控键盘和鼠标操作以记录用户动作,并同步截取游戏截图 [17][18] CombatVLA模型 - 团队将动作跟踪器采集的数据转化为"动作思维"(AoT)数据,包含动作和解释两部分 [24] - 采用三阶段渐进式训练范式:视频级粗粒度微调、帧级细粒度微调和帧级截断微调 [26][27][29][33] - 训练过程中视觉编码器参数冻结,仅微调语言模型参数,并通过特殊标记实现输出截断加速 [35] 动作执行框架 - 团队开发了轻量级且高效的动作执行智能体,接收实时游戏画面作为输入,输出键鼠动作指令 [36][37] - 推理过程中采用截断输出策略,检测到特殊标记即停止,将内容解析为动作并转换为Python代码执行 [39][40] - 对实时游戏画面进行帧采样,去除冗余视觉信息,降低模型推理负担 [38] 实验结果 - 在CUBench上,CombatVLA取得63.61的最高平均分,比第二名Gemini-2.0-flash高出5.71分 [46] - 在通用基准评测中表现与基座模型相当,验证了方法的稳健性和泛化能力 [47] - 平均推理延迟仅1.8秒,比VARP快约50倍,模型调用成本仅为其1/10 [48][49] - 在任务级实战测试中,CombatVLA在中高难度任务上全面超越基线,并在零样本任务上展现较强泛化能力 [47][55]
首个3D动作游戏专用VLA模型,打黑神话&只狼超越人类玩家 | ICCV 2025
量子位·2025-08-19 13:25