主要AI模型升级 - Qwen发布全新视觉推理模型QvQ-Max 能够分析图片和视频内容并进行推理和解决方案生成 [1] - Gemini推出2.5 Pro Experimental版本 在数学和科学基准测试中超越OpenAI的o3-mini [2] - Gemini 2.5 Pro在GPQA diamond基准测试中达到84.0%准确率 超过OpenAI o3-mini的79.7% [3] - 在AIME 2025数学测试中 Gemini 2.5 Pro达到86.7%准确率 略高于OpenAI o3-mini的86.5% [3] 游戏场景测试表现 - 在卡牌游戏《重返未来:1999》测试中 Gemini对伤害数值统计准确率约65分 Qwen约55分 [26] - Gemini能够连续分析视频内容并区分多个行动主体 对伤害数值抓取准确率超出预期 [18][19] - Qwen采用每五秒统计一次的方式 准确度存在一定问题 [13] - 在复杂游戏《王者荣耀》测试中 两个模型表现均不理想 Gemini对连续伤害数字难以准确区分 [68][70] 多模态推理能力 - Gemini具备100万个标记上下文窗口 能处理文本、音频、图像、视频和代码存储库等多源信息 [3] - 推理能力作为底层基础 能够惠及模型在所有形态任务上的处理 包括跨模态理解 [4] - 游戏测试场景包含文字、图像、视觉效果等多模态素材 是理想的考核环境 [5] - Qwen团队强调视觉推理的重要性 因为现实世界中大量信息通过非文字形式表达 [74] 实际应用潜力 - 模型能够通过读取游戏记录分析关卡并制定作战计划 展现分析和计算能力 [7] - 在攻略生成方面 Qwen提供了详细的回合优化方案 建议可在8-10回合内击败Boss [49] - Gemini能够识别音频信息 在人机对战环境中准确判断胜率 [74] - 模型表现出"看懂"多模态信息并进行深度分析的能力 通用型智能初具形态 [75]
我让最强 AI 推理模型陪我打《王者荣耀》,我这个青铜直接起飞