产品发布与战略意义 - 谷歌于美东时间18日正式发布其迄今最强大人工智能模型Gemini 3,并在发布首日立即整合至谷歌搜索、Gemini应用程序App及多个开发者平台,这是公司首次在新模型发布当天就将其应用于搜索产品,显示出加快AI技术商业化的决心 [1] - 此次发布正值微软Ignite大会召开之际,距离OpenAI发布GPT 5.1仅一周,距离Anthropic发布Sonnet 4.5仅两个月,凸显出前沿AI模型开发的激烈竞争态势 [3] - 谷歌CEO Sundar Pichai宣布正式开启Gemini时代,并计划很快发布Gemini 3系列的更多模型,以继续推动智能、智能体和个性化的前沿 [17] 模型性能与基准测试表现 - Gemini 3在全球AI模型LMArena排行榜上以1501分的历史最高分登顶,并在衡量通用推理能力的Humanity's Last Exam基准测试中获得37.5%的最高分,超越了GPT-5 Pro保持的31.64%纪录 [1] - 在多项学术基准测试中,Gemini 3展现出博士水平表现,具体包括:GPQA Diamond测试91.9%、MathArena Apex基准测试23.4%、SimpleQA Verified测试72.1%、MMMU-Pro测试81%、Video-MMMU测试87.6% [6][7] - 增强推理模式Gemini 3 Deep Think在Humanity's Last Exam测试中达到41.0%,在GPQA Diamond测试中获得93.8%,在ARC-AGI-2测试中创下45.1%的成绩 [7] 开发者工具与平台升级 - 谷歌推出以智能体为先的全新开发平台Google Antigravity,该平台利用Gemini 3的高级推理、工具使用和智能体编码能力,并集成Gemini 2.5 Computer Use模型和图像编辑模型Nano Banana [2][10][11] - 在代码生成领域,Gemini 3在WebDev Arena排行榜上以1487分登顶,在Terminal-Bench 2.0测试中获得54.2%的分数,在SWE-bench Verified基准测试中达到76.2% [10] - 开发者可通过Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub、JetBrains等第三方平台访问Gemini 3 [10] 多模态理解与智能体能力 - Gemini 3能够无缝处理文本、图像、视频、音频和代码等多种模态信息,并配备100万token的上下文窗口,被公司称为"世界上最好的多模态理解模型" [2][3][13] - 在智能体能力方面,Gemini 3在测试长期规划能力的Vending-Bench 2排行榜上位居榜首,在模拟运营中实现平均净收益$5,478.16,远超其他对比模型 [7][13] - 该模型能够结合更深入的推理与改进的工具使用,代表用户导航复杂的多步骤工作流程,如破译翻译手写食谱、分析运动视频生成训练计划等 [13] 产品整合与用户基础 - Gemini应用程序App的每月活跃用户已超过6.5亿,AI Overview功能每月服务20亿用户,超过70%的谷歌云客户正在使用其AI产品,1300万开发者已基于谷歌生成式模型进行开发 [4] - 在搜索方面,AI Mode现在使用Gemini 3实现新的生成式用户界面体验,包括沉浸式视觉布局和交互式工具 [16] - 对于企业用户,Gemini 3已在Vertex AI和Gemini Enterprise中推出,Google AI Ultra订阅用户可率先在Gemini App中体验智能体功能 [14][16][17]
谷歌最强大AI模型来了!Gemini 3发布首日即投入搜索、App和开发者平台同步上线