产品发布与定位 - 谷歌于2025年11月19日正式发布Gemini 3,定位为当前全球最强大的多模态理解模型、智能体模型及“vibe coding”模型 [1] - 公司推出了Gemini 3 Pro预览版以及增强推理模式Gemini 3 Deep Think,后者将优先提供给安全测试人员,随后面向Google AI Ultra订阅用户开放 [1] - 该产品是谷歌在推动模型智能加速方面的最新成果,并同步发布了全新的智能体开发平台Google Antigravity [8] 核心性能表现 - Gemini 3以1501 Elo得分位居LMArena排行榜首位,并在Humanity's Last Exam上取得博士水平的推理表现,得分37.5% [1] - 在数学能力上,模型在MathArena Apex取得23.4%的最新最优成绩,在AIME 2025上不使用工具得分95.0%,使用代码执行可达100% [1][3] - 在多模态推理方面,Gemini 3 Pro在MMMU-Pro上成绩为81.0%,在Video-MMMU上成绩为87.6%,重新定义了行业标准 [2][3] - 在事实准确性方面,模型在SimpleQA Verified上取得72.1%的业界领先成绩 [2][3] Deep Think模式增强 - Gemini 3 Deep Think模式进一步提升了模型性能,在Humanity's Last Exam上成绩提升至41.0%,在GPQA Diamond上达到93.8% [4] - 该模式在ARC-AGI-2上使用代码执行取得45.1%的成绩,显示出在推理与多模态理解方面的飞跃式提升 [4] 智能体与编码能力 - Gemini 3是公司最出色的vibe coding和agentic coding模型,以1487 Elo成绩登顶WebDev Arena排行榜 [8] - 在Terminal-Bench 2.0测试中模型获得54.2%的成绩,在SWE-bench Verified上达到76.2% [3][8] - 在长周期智能体任务中,Gemini 3 Pro在Vending-Bench 2测试中平均净值为5,478.16美元,显著高于竞争对手 [3] - 模型在LiveCodeBench Pro上的Elo评级达到2,439,显示出强大的竞争性编程问题解决能力 [3] 多模态与上下文能力 - Gemini 3设计用于跨文本、图像、视频、音频和代码多种模态,具备100万tokens的上下文窗口 [6] - 模型在长上下文性能测试MRCR v2 (8-needle)中,128k上下文平均成绩为77.0%,1M上下文点状成绩为26.3% [3] - 在多语言能力方面,模型在MMLU上取得91.8%的成绩,在Global PIQA上达到93.4% [3] 平台集成与应用场景 - 用户可在Google AI Studio、Vertex AI、Gemini CLI及新平台Google Antigravity中使用Gemini 3,该模型也已集成至Cursor、GitHub、JetBrains等第三方平台 [8] - Google Antigravity平台深度集成Gemini 3 Pro、Gemini 2.5 Computer Use及Nano Banana图像编辑模型,将AI提升为主动合作伙伴 [9][10] - 搜索中的AI模式现已使用Gemini 3,能根据搜索查询实时生成沉浸式视觉排版、交互式工具和模拟器 [7] - 模型具备实际任务处理能力,例如分析运动视频生成训练计划、整理邮箱、预订本地服务等复杂多步骤流程 [7][10]
Gemini3 正式发布