谷歌Gemini 2.5 Pro Preview(I/O版)发布 - 谷歌在I/O大会前突发推出Gemini 2.5 Pro Preview(I/O版),作为旗舰AI模型的升级版本,宣称在多项主流基准测试中名列前茅 [2] - 该模型通过Gemini API、Vertex AI与AI Studio平台提供,价格与旧版一致,并集成至Gemini聊天机器人应用供Web及移动端使用 [2] - DeepMind CEO Demis Hassabis强调这是目前最佳编程模型,在LMArena编程类别和WebDev Arena排行榜均排名第一 [2] 模型性能提升 - 新版在编码和构建交互式Web应用方面实现显著提升,尤其在代码转换与编辑任务表现突出 [7] - 在WebDev Arena排行榜以1420分位列第一,较上一版本提高147个Elo积分,超越Claude 3.7 Sonnet(1357分)和GPT-4.1(1261分) [8][9] - 视频理解能力达一流水平,在VideoMME基准测试取得84.8%得分,结合编码功能实现全新流程 [10] 开发者功能优化 - 减少函数调用错误并提高触发率,默认保持良好可操控性,同时强化对Web开发的审美追求 [12] - 前端Web开发表现优异,可自动生成匹配现有风格的CSS代码,例如为应用添加视频播放器组件 [14] - 听写入门应用展示动态波长动画、响应式布局等细节设计,能智能生成麦克风UI动画代码 [15] 行业竞争与社区反馈 - 发布正值谷歌I/O大会前夕,公司计划推出更多AI工具以应对与OpenAI、xAI的激烈竞争 [4] - Cursor CEO称赞模型编程能力进步,工具调用失败率显著降低,提升开发效率 [17] - Hacker News用户认为Gemini 2.5系列可靠性优于其他模型,但仍无法替代人类开发者在抽象思维和系统架构上的能力 [17][18] 基准测试对比 - 科学(GPQA diamond)得分83.0%略低于旧版84.0%,数学(AIME 2025)83.0%低于旧版86.7% [19] - 代码生成(LiveCodeBench v5)75.6%优于旧版70.4%,代码编辑(Aider Polyglot)76.5%整体得分提升 [19] - 长上下文处理(MRCR 128k)93.0%稍逊于旧版94.5%,多模态性能(Global MMLU Lite)88.6%略有下降 [19]
碾压Cursor?谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一