Gemini 3深夜来袭：力压GPT 5.1，大模型谷歌时代来了

产品发布与市场热度 - 谷歌正式发布其最先进的多模态大模型Gemini 3，该模型被公司定义为“通往AGI的重要一步”[5][6] - 产品发布前在社交媒体平台引发极高关注度，导致平台出现服务中断，反映出市场对该模型发布的巨大期待[1][2] - 模型发布获得行业关键人物如OpenAI的Sam Altman和xAI的Elon Musk的祝贺[5] 核心性能表现 - Gemini 3 Pro在几乎所有主流AI基准测试中显著超越前代Gemini 2.5 Pro，并全面压制Claude Sonnet 4.5和GPT-5.1等主要竞品[7] - 模型以1501 Elo的突破性高分登顶LMArena Leaderboard，在Humanity's Last Exam（无工具条件下达37.5%）和GPQA Diamond（91.9%）上获得最高分，展示博士级推理能力[7] - 在多模态理解方面，模型在MMMU-Pro和Video-MMMU上分别斩获81%和87.6%的高分，在解析复杂科学图表和理解动态视频流上表现优异[7] - 在数学领域为前沿模型树立新标准，在MathArena Apex上达到23.4%的最新SOTA水平[7] - 在事实准确性上取得巨大进步，于SimpleQA Verified上取得72.1%的成绩[7] 新增功能与模式 - 推出全新的Deep Think模式，该模式在推理和多模态理解能力上有重大进步，在Humanity's Last Exam（无工具41.0%）和GPQA Diamond（93.8%）上的表现优于Gemini 3 Pro[10][13] - 引入全新的Google Antigravity智能体开发平台，将AI辅助从工具转变为积极的合作伙伴，提升开发者体验[6][24] - 模型结合先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级token上下文窗口，拓展多模态推理边界[14] 开发者与编码能力 - 模型是谷歌迄今为止最佳Vibe编码和Agent编码模型，在WebDev Arena排行榜上以1487 Elo分数名列榜首[16] - 在评估终端操作计算机能力的Terminal-Bench 2.0测试中取得54.2%的成绩，在衡量编码代理性能的SWE-bench Verified测试中大幅超越2.5 Pro版本，得分为76.2%[16] - 开发者现可通过Google AI Studio、Vertex AI、Gemini CLI以及全新的Google Antigravity平台使用Gemini 3进行构建，并适用于Cursor、GitHub等第三方平台[17] 规划与商业应用能力 - 模型的规划能力在Vending-Bench 2测试中得到印证，通过长周期规划管理虚拟商业运营，在模拟售货机经营测试中登顶，实现更高投资回报[18] - 在完整模拟年度运营中，Gemini 3 Pro始终保持稳定的工具调用与决策连贯性，展现出卓越的长周期规划能力[18] 定价与可用性 - Gemini 3.0 Pro引入基于上下文长度的分级定价机制：200k tokens以下任务，输入/输出价格为每百万token $2.00/$12.00；超过200k tokens则分别为$4.00和$18.00[21] - 模型现已全面开放，普通用户和订阅用户可通过Gemini App及搜索AI模式使用，开发者与企业客户可通过AI Studio、Vertex AI等渠道接入[19] - Deep Think模式预计将在未来几周内面向Google AI Ultra订阅用户独家上线[19] 市场影响与用户基础 - 在一项关于“到2026年底哪家公司拥有最好LLM”的投票中，Google Gemini遥遥领先，显示市场信心回升[32] - 根据公司数据，AI Overviews月活跃用户已达20亿，Gemini应用月活突破6.5亿，超过70%的云客户以及1300万开发者正在使用其生成式模型[34]