我让最强 AI 推理模型陪我打《王者荣耀》，我这个青铜直接起飞

主要AI模型升级 - Qwen发布全新视觉推理模型QvQ-Max 能够分析图片和视频内容并进行推理和解决方案生成 [1] - Gemini推出2.5 Pro Experimental版本在数学和科学基准测试中超越OpenAI的o3-mini [2] - Gemini 2.5 Pro在GPQA diamond基准测试中达到84.0%准确率超过OpenAI o3-mini的79.7% [3] - 在AIME 2025数学测试中 Gemini 2.5 Pro达到86.7%准确率略高于OpenAI o3-mini的86.5% [3] 游戏场景测试表现 - 在卡牌游戏《重返未来：1999》测试中 Gemini对伤害数值统计准确率约65分 Qwen约55分 [26] - Gemini能够连续分析视频内容并区分多个行动主体对伤害数值抓取准确率超出预期 [18][19] - Qwen采用每五秒统计一次的方式准确度存在一定问题 [13] - 在复杂游戏《王者荣耀》测试中两个模型表现均不理想 Gemini对连续伤害数字难以准确区分 [68][70] 多模态推理能力 - Gemini具备100万个标记上下文窗口能处理文本、音频、图像、视频和代码存储库等多源信息 [3] - 推理能力作为底层基础能够惠及模型在所有形态任务上的处理包括跨模态理解 [4] - 游戏测试场景包含文字、图像、视觉效果等多模态素材是理想的考核环境 [5] - Qwen团队强调视觉推理的重要性因为现实世界中大量信息通过非文字形式表达 [74] 实际应用潜力 - 模型能够通过读取游戏记录分析关卡并制定作战计划展现分析和计算能力 [7] - 在攻略生成方面 Qwen提供了详细的回合优化方案建议可在8-10回合内击败Boss [49] - Gemini能够识别音频信息在人机对战环境中准确判断胜率 [74] - 模型表现出"看懂"多模态信息并进行深度分析的能力通用型智能初具形态 [75]