碾压Cursor？谷歌突发Gemini 2.5 Pro 预览版，编码能力全网第一

谷歌Gemini 2.5 Pro Preview（I/O版）发布 - 谷歌在I/O大会前突发推出Gemini 2.5 Pro Preview（I/O版），作为旗舰AI模型的升级版本，宣称在多项主流基准测试中名列前茅 [2] - 该模型通过Gemini API、Vertex AI与AI Studio平台提供，价格与旧版一致，并集成至Gemini聊天机器人应用供Web及移动端使用 [2] - DeepMind CEO Demis Hassabis强调这是目前最佳编程模型，在LMArena编程类别和WebDev Arena排行榜均排名第一 [2] 模型性能提升 - 新版在编码和构建交互式Web应用方面实现显著提升，尤其在代码转换与编辑任务表现突出 [7] - 在WebDev Arena排行榜以1420分位列第一，较上一版本提高147个Elo积分，超越Claude 3.7 Sonnet（1357分）和GPT-4.1（1261分） [8][9] - 视频理解能力达一流水平，在VideoMME基准测试取得84.8%得分，结合编码功能实现全新流程 [10] 开发者功能优化 - 减少函数调用错误并提高触发率，默认保持良好可操控性，同时强化对Web开发的审美追求 [12] - 前端Web开发表现优异，可自动生成匹配现有风格的CSS代码，例如为应用添加视频播放器组件 [14] - 听写入门应用展示动态波长动画、响应式布局等细节设计，能智能生成麦克风UI动画代码 [15] 行业竞争与社区反馈 - 发布正值谷歌I/O大会前夕，公司计划推出更多AI工具以应对与OpenAI、xAI的激烈竞争 [4] - Cursor CEO称赞模型编程能力进步，工具调用失败率显著降低，提升开发效率 [17] - Hacker News用户认为Gemini 2.5系列可靠性优于其他模型，但仍无法替代人类开发者在抽象思维和系统架构上的能力 [17][18] 基准测试对比 - 科学（GPQA diamond）得分83.0%略低于旧版84.0%，数学（AIME 2025）83.0%低于旧版86.7% [19] - 代码生成（LiveCodeBench v5）75.6%优于旧版70.4%，代码编辑（Aider Polyglot）76.5%整体得分提升 [19] - 长上下文处理（MRCR 128k）93.0%稍逊于旧版94.5%，多模态性能（Global MMLU Lite）88.6%略有下降 [19]