Workflow
谷歌Gemini 3夜袭全球,暴击GPT-5.1,奥特曼罕见祝贺
36氪·2025-11-19 08:07

产品发布核心 - 谷歌正式发布新一代旗舰人工智能模型Gemini 3 Pro,该模型被定位为“史上最强推理+多模态+氛围编程”三合一的AI模型 [1] - 此次发布标志着公司在通往AGI的道路上迈出重要一步,被视为开启了AI的下一个时代 [3][9] - 发布获得了行业高度关注,包括OpenAI CEO在内的业界人士表达了祝贺 [1] 核心性能优势 - 在多项关键基准测试中,Gemini 3 Pro性能相较于前代Gemini 2.5 Pro实现全方位跃升,并在多项测试中超越竞争对手包括GPT-5.1和Claude Sonnet 4.5 [3][4][18] - 模型在LMArena排行榜上以1501 Elo分数名列榜首,在WebDev Arena排行榜上以1487 Elo分数登顶,展示了顶尖的推理和编码能力 [5][6][31] - 其核心优势体现在博士级推理能力,在Humanity‘s Last Exam测试中取得37.5%(无工具)和45.8%(使用搜索和代码执行)的成绩,在GPQA Diamond测试中取得91.9%的成绩 [4][17] 多模态与复杂任务处理能力 - 模型具备世界领先的多模态理解力,能处理文本、图像、视频、音频、代码等多种信息形态,在MMMU-Pro测试中获81.0%高分,在Video-MMMU测试中获87.6%高分 [4][19][28] - 在长程规划和智能体任务方面表现卓越,在Vending-Bench 2测试中以平均净值$5,478.16的成绩大幅领先于其他模型,展示了出色的长期规划能力 [4][38][40] - 模型具备100万token的上下文长度,能够帮助用户以个性化方式进行学习,例如破译手写食谱、分析教学视频并生成训练计划等 [28][30] 编程与开发能力 - Gemini 3在“氛围编程”和智能体编码方面实现突破,能够根据简单提示生成美观灵动的应用和复杂的Web UI [14][31][34] - 在编码基准测试中表现强劲,在LiveCodeBench Pro测试中获得2,439 Elo评分,在SWE-Bench Verified测试中取得76.2%的成绩 [4][32] - 公司同步推出革命性智能体开发平台Google Antigravity,该平台与Gemini 3紧密集成,允许开发者以任务为维度与智能体协同,实现端到端的软件任务开发 [42][45][47] 市场应用与生态整合 - 即日起,Gemini 3 Pro预览版全面上线,而更高级的Deep Think模式将稍后向Google AI Ultra订阅用户开放 [11][41] - 模型的API定价针对不同上下文长度设定,对于不超过20万token的请求,输入价格为每百万tokens $2.00,输出价格为每百万tokens $12.00 [24] - 模型已接入Google AI Studio、Vertex AI等多个开发平台,并与Cursor、GitHub、JetBrains等第三方平台集成,供全球开发者使用 [36] 技术实现与行业影响 - Gemini 3完全在谷歌自研的TPU上完成训练,这被视为公司重要的技术护城河 [54] - 早期实测演示显示模型能力强大,可一次性生成复杂的3D乐高编辑器、重现经典iOS游戏甚至构建Game Boy模拟器,展示了其在游戏开发和复杂应用构建上的潜力 [48][49][52] - 模型的发布在行业内引发广泛关注和讨论,一系列实测Demo展示了其在实际应用中的卓越表现 [48][52]