谷歌新模型2.5 Pro霸榜AI竞技场，开发者评价两极分化

谷歌Gemini 2.5 Pro模型升级 - 谷歌推出升级预览版大模型Gemini 2.5 Pro（0605），将在几周后成为正式稳定版本，适用于企业级应用 [1] - 该模型在LMArena竞技场保持排名第一，Elo分数提升24分至1470分 [1] - 最新版本在多项AI性能基准测试中取得更高分数，包括代码生成、研究生级问答测试等领域 [2] 性能基准表现 - 在GPQA测试中成绩超过OpenAI o3、Claude 4和DeepSeek-R1最新版 [2] - 在"人类的最后考试(HLE)"中达到21.6%准确率，比OpenAI o3高1.3个百分点 [2] - 在Aider Polyglot高难度编程基准测试中保持领先 [2] - 大模型竞技场(lmarena.ai)新榜单显示2.5 Pro新版在总分和所有子榜单(文本、视觉、数学、创意等)位列第一 [3] 开发者评价分歧 - 部分开发者认为Claude系列模型在实际编程体验上优于Gemini，尤其在C++编程场景 [5] - 另有开发者反馈Gemini 2.5 Pro在Python和Typescript场景表现优于Claude 3.7，生成的网页更美观 [5] - 行业人士指出榜单评测可能侧重基础任务，对Agent能力评估不足，而Claude在Agent优化方面更具优势 [5] 价格比较 - Gemini 2.5 Pro输入价格为1.25美元/百万Tokens，输出为10美元/百万Tokens [6] - OpenAI o3输入价格为10美元/百万Tokens，输出为40美元/百万Tokens [6] - Claude 4 Opus价格为15美元(输入)/75美元(输出)每百万Tokens [6] - 谷歌新模型引入"思考预算"功能，帮助开发者更好控制成本和延迟 [6] 行业竞争态势 - 大模型竞争进入下半场，基础能力差距缩小，较量转向更复杂维度 [6] - 模型价值越来越取决于特定场景下的表现能否赢得开发者认可 [6] - 实际应用场景中的表现和开发者选择将成为竞争关键 [7]