谷歌(GOOGL.US)突然发布Gemini 3.1 Pro:核心推理性能直接翻倍
谷歌谷歌(US:GOOGL) 智通财经网·2026-02-20 09:11

产品发布与定位 - 谷歌发布最新大模型底座Gemini 3.1 Pro,该模型是支撑其技术突破的底层智力引擎 [1] - 该模型主打多源数据综合、复杂视觉解析与高难度任务拆解 [4] - 谷歌同时上线了Google Antigravity [5] 性能表现与基准测试 - 相比去年十一月发布的Gemini 3 Pro,新模型的推理性能直接翻倍 [2] - 在评估模型破解全新逻辑范式能力的ARC-AGI-2评测中,Gemini 3.1 Pro得分为77.1%,而Gemini 3 Pro为31.1% [2] - 在代码能力方面,SWE-Bench验证得分为80.6%,非常接近Opus 4.6的80.8% [2] - 在Humanity's Last Exam评测中,Gemini 3.1 Pro得分为44.4%,高于Gemini 3 Pro的37.5% [3] - 在Academic reasoning评测中,Gemini 3.1 Pro得分为51.4%,高于Gemini 3 Pro的45.8% [3] - 在GPQA Diamond Scientific knowledge评测中,Gemini 3.1 Pro得分为94.3%,高于Gemini 3 Pro的91.9% [3] - 在Terminal-Bench 2.0评测中,Gemini 3.1 Pro得分为68.5%,高于Gemini 3 Pro的56.9% [3] - 在SWE-Bench Pro (Public)评测中,Gemini 3.1 Pro得分为54.2%,高于Gemini 3 Pro的43.3% [3] - 在LiveCodeBench Pro评测中,Gemini 3.1 Pro的Elo评分为2887,高于Gemini 3 Pro的2439 [3] - 在SciCode评测中,Gemini 3.1 Pro得分为59%,高于Gemini 3 Pro的56% [3] - 在APEX-Agents评测中,Gemini 3.1 Pro得分为33.5%,高于Gemini 3 Pro的18.4% [3] - 在GDPval-AA Elo评测中,Gemini 3.1 Pro得分为1317,高于Gemini 3 Pro的1195 [3] - 在t2-bench Retail评测中,Gemini 3.1 Pro得分为90.8%,高于Gemini 3 Pro的85.3% [3] - 在Agentic tool use Telecom评测中,Gemini 3.1 Pro得分为99.3%,高于Gemini 3 Pro的98.0% [3] - 在MCP Atlas评测中,Gemini 3.1 Pro得分为69.2%,高于Gemini 3 Pro的54.1% [3] - 在BrowseComp评测中,Gemini 3.1 Pro得分为85.9%,高于Gemini 3 Pro的59.2% [3] - 在MMMU Pro评测中,Gemini 3.1 Pro得分为80.5%,略低于Gemini 3 Pro的81.0% [3] - 在MMLU评测中,Gemini 3.1 Pro得分为92.6%,高于Gemini 3 Pro的91.8% [3] - 在MRCR v2 (8-needle) 128k评测中,Gemini 3.1 Pro得分为84.9%,高于Gemini 3 Pro的77.0% [3] - 在Long context performance 1M评测中,Gemini 3.1 Pro得分为26.3%,与Gemini 3 Pro持平 [3] 产品发布与市场推广 - 新模型从发布日起全线推送预览版 [4] - 消费端用户可通过Gemini应用程序和NotebookLM直接调用 [4] - Google AI Pro和Ultra订阅用户拥有更高使用额度,并可直接在Google AI Studio中拉取Gemini API [4] - 配套工具链Gemini CLI与Android Studio已完成首批适配 [4] - 企业端客户可通过Vertex AI和Gemini Enterprise接入测试 [6]

谷歌(GOOGL.US)突然发布Gemini 3.1 Pro:核心推理性能直接翻倍 - Reportify