产品发布与性能表现 - Gemini 3 Pro 已正式上线,其预览版可在 Google AI Studio 体验,面向大众的网站和 App 版本将很快推出 [1][2] - 在多项基准测试中,Gemini 3 Pro 性能全面超越前代产品 Gemini 2.5 Pro 及主要竞争对手 Claude Sonnet 4.5 和 GPT-5.1 [3] - 在代表抽象推理能力的 ARC-AGI-2 测试中取得 31.1% 的成绩,显著领先于第二名 Claude Sonnet 4.5 的 13.6% [3][4] - 在数学能力测试中表现突出,AIME 2025(无工具)得分达 95.0%,MathArena Apex 得分 23.4%,远超对手的不足 2% [3][4] - 在“人类最后一场闭卷考试”Humanity's Last Exam 中取得当前最高分 37.5%,优于 GPT-5.1 的 26.5% [3][7] - 开启 Deep Think 模式后,模型性能进一步提升,在 Humanity's Last Exam 中得分提升至 41%,在 GPQA Diamond 科学知识测试中得分达 93.8%,在 ARC-AGI-2 中得分高达 45.1% [7][8] 多模态与交互能力 - 模型具备强大的多模态理解和生成能力,可一句话生成高质量、可交互的 3D 模型和 SVG 图像,例如在 35 秒内生成带开关的可操作灯泡 SVG [9][12] - 在屏幕理解测试 ScreenSpot-Pro 中得分 72.7%,远超其他模型,表明其能像人类一样理解并操作 UI 界面 [3][4] - 未来将推出“生成式 UI”功能,模型可直接生成动态、可交互的界面来回答问题,例如生成一个包含可交互元素的罗马旅行计划 [15] - 在长程智能体任务测试 Vending-Bench 2 中,以平均净值 $5,478.16 的表现大幅领先于其他模型,展示了其在复杂跨场景任务中的执行能力 [3][4] 编程与开发能力 - 在竞技编程 LiveCodeBench Pro 测试中,Elo 评级达 2,439 分,高于 GPT-5.1 的 2,243 分 [3] - 具备强大的代码生成与系统构建能力,可根据一段描述生成功能完整的“macOS 操作系统”,并能在此系统内进行上网、运行终端等操作 [22] - 能快速生成功能完备的网站,例如在 1.5 分钟内生成包含四个页面、具有有效交互元素的个人网站,并能根据反馈(如要求更具设计感)在 45 秒内完成迭代 [26][29] - 谷歌发布了名为 Antigravity 的集成开发环境,该平台能让 AI 作为智能体自主跟进开发进度、编写代码、验证效果并学习开发者的编码风格 [38][39] 行业影响与产品定位 - 模型通过与谷歌全家桶的深度集成,在开启 Agent 模式并授权后,能调动用户设备中的数据,实现复杂的个人助理功能,如根据邮件信息预订租车 [5][7] - 技术的进步显著降低了从构思到实现的技术门槛,将竞争的核心转向了想象力 [39] - 公司产品发展路径清晰:Gemini 1 奠定多模态基础,Gemini 2 强化推理与智能体能力,Gemini 3 则通过生成式 UI 实现输出格式的多样化,完成了能力的持续迭代 [39]
都别争了,放着我来:Gemini 3生成一切