都别争了，放着我来：Gemini 3生成一切

产品发布与性能表现 - Gemini 3 Pro 已正式上线，其预览版可在 Google AI Studio 体验，面向大众的网站和 App 版本将很快推出 [1][2] - 在多项基准测试中，Gemini 3 Pro 性能全面超越前代产品 Gemini 2.5 Pro 及主要竞争对手 Claude Sonnet 4.5 和 GPT-5.1 [3] - 在代表抽象推理能力的 ARC-AGI-2 测试中取得 31.1% 的成绩，显著领先于第二名 Claude Sonnet 4.5 的 13.6% [3][4] - 在数学能力测试中表现突出，AIME 2025（无工具）得分达 95.0%，MathArena Apex 得分 23.4%，远超对手的不足 2% [3][4] - 在“人类最后一场闭卷考试”Humanity's Last Exam 中取得当前最高分 37.5%，优于 GPT-5.1 的 26.5% [3][7] - 开启 Deep Think 模式后，模型性能进一步提升，在 Humanity's Last Exam 中得分提升至 41%，在 GPQA Diamond 科学知识测试中得分达 93.8%，在 ARC-AGI-2 中得分高达 45.1% [7][8] 多模态与交互能力 - 模型具备强大的多模态理解和生成能力，可一句话生成高质量、可交互的 3D 模型和 SVG 图像，例如在 35 秒内生成带开关的可操作灯泡 SVG [9][12] - 在屏幕理解测试 ScreenSpot-Pro 中得分 72.7%，远超其他模型，表明其能像人类一样理解并操作 UI 界面 [3][4] - 未来将推出“生成式 UI”功能，模型可直接生成动态、可交互的界面来回答问题，例如生成一个包含可交互元素的罗马旅行计划 [15] - 在长程智能体任务测试 Vending-Bench 2 中，以平均净值 $5,478.16 的表现大幅领先于其他模型，展示了其在复杂跨场景任务中的执行能力 [3][4] 编程与开发能力 - 在竞技编程 LiveCodeBench Pro 测试中，Elo 评级达 2,439 分，高于 GPT-5.1 的 2,243 分 [3] - 具备强大的代码生成与系统构建能力，可根据一段描述生成功能完整的“macOS 操作系统”，并能在此系统内进行上网、运行终端等操作 [22] - 能快速生成功能完备的网站，例如在 1.5 分钟内生成包含四个页面、具有有效交互元素的个人网站，并能根据反馈（如要求更具设计感）在 45 秒内完成迭代 [26][29] - 谷歌发布了名为 Antigravity 的集成开发环境，该平台能让 AI 作为智能体自主跟进开发进度、编写代码、验证效果并学习开发者的编码风格 [38][39] 行业影响与产品定位 - 模型通过与谷歌全家桶的深度集成，在开启 Agent 模式并授权后，能调动用户设备中的数据，实现复杂的个人助理功能，如根据邮件信息预订租车 [5][7] - 技术的进步显著降低了从构思到实现的技术门槛，将竞争的核心转向了想象力 [39] - 公司产品发展路径清晰：Gemini 1 奠定多模态基础，Gemini 2 强化推理与智能体能力，Gemini 3 则通过生成式 UI 实现输出格式的多样化，完成了能力的持续迭代 [39]