Gemini 2.5 Pro Experimental
搜索文档
我让最强 AI 推理模型陪我打《王者荣耀》,我这个青铜直接起飞
36氪· 2025-03-31 08:47
主要AI模型升级 - Qwen发布全新视觉推理模型QvQ-Max 能够分析图片和视频内容并进行推理和解决方案生成 [1] - Gemini推出2.5 Pro Experimental版本 在数学和科学基准测试中超越OpenAI的o3-mini [2] - Gemini 2.5 Pro在GPQA diamond基准测试中达到84.0%准确率 超过OpenAI o3-mini的79.7% [3] - 在AIME 2025数学测试中 Gemini 2.5 Pro达到86.7%准确率 略高于OpenAI o3-mini的86.5% [3] 游戏场景测试表现 - 在卡牌游戏《重返未来:1999》测试中 Gemini对伤害数值统计准确率约65分 Qwen约55分 [26] - Gemini能够连续分析视频内容并区分多个行动主体 对伤害数值抓取准确率超出预期 [18][19] - Qwen采用每五秒统计一次的方式 准确度存在一定问题 [13] - 在复杂游戏《王者荣耀》测试中 两个模型表现均不理想 Gemini对连续伤害数字难以准确区分 [68][70] 多模态推理能力 - Gemini具备100万个标记上下文窗口 能处理文本、音频、图像、视频和代码存储库等多源信息 [3] - 推理能力作为底层基础 能够惠及模型在所有形态任务上的处理 包括跨模态理解 [4] - 游戏测试场景包含文字、图像、视觉效果等多模态素材 是理想的考核环境 [5] - Qwen团队强调视觉推理的重要性 因为现实世界中大量信息通过非文字形式表达 [74] 实际应用潜力 - 模型能够通过读取游戏记录分析关卡并制定作战计划 展现分析和计算能力 [7] - 在攻略生成方面 Qwen提供了详细的回合优化方案 建议可在8-10回合内击败Boss [49] - Gemini能够识别音频信息 在人机对战环境中准确判断胜率 [74] - 模型表现出"看懂"多模态信息并进行深度分析的能力 通用型智能初具形态 [75]
Is a New AI Model the Catalyst Alphabet Stock Needed?
The Motley Fool· 2025-03-30 18:30
公司AI模型进展 - 公司发布新一代AI模型Gemini 2 5 Pro Experimental,距离上一代Gemini 2 0发布仅约三个月[1] - 新模型最大升级在于具备“思考”能力,能够在回应前进行逻辑推理,从而提升性能和准确性[2] - 该模型在LMArena排行榜上以显著优势获得最高分,性能超越OpenAI的ChatGPT 4 5和o3-mini、xAI的Grok 3、Anthropic的Claude Sonnet 3 7及DeepSeek R1等竞争对手模型[2] - 新模型在编码、数学和科学领域表现尤为强劲,编码性能较前代模型实现巨大飞跃,能够创建视觉吸引人的网络应用、代理代码应用以及进行代码转换和编辑[3] - 模型为多模态,可处理文本、音频、图像和视频信息,并能处理整个代码库的数据集[4] 技术应用与商业影响 - 开发者与企业现可通过Google AI Studio体验Gemini 2 5,该模型未来几周将在Google Cloud的Vertex AI平台上可用[4] - 独立测试显示,Gemini 2 5与OpenAI最新推理模型o3-mini在细节、深度、速度和推理方面均表现强劲,表明公司已快速追赶[5] - Gemini模型已推动公司云计算业务增长,上季度该部门收入增长30%,客户使用Vertex AI平台利用Gemini作为基础模型构建自身应用[8] - 持续增强Gemini将改善核心搜索业务和AI Overviews功能,为未来货币化奠定基础[9] 其他创新领域领导力 - 公司在文本转视频等AI领域保持明显领先,其Veo 2平台表现优于竞争对手[7] - 在量子计算领域取得重大突破,新型Willow芯片能够在使用更多量子比特时减少错误,显示出在该领域的早期领导地位[10] - 在自动驾驶领域,旗下Waymo单元是美国唯一提供付费机器人出租车服务的公司,已在早期市场获得网约车份额,并计划未来几年扩张至新城市[11] 公司估值与战略 - 公司股票基于今年分析师预估的远期市盈率约为18倍[13] - 公司宣布将收购网络安全公司Wiz,以引入另一项快速增长的业务[12]