谷歌(GOOGL.US)突然发布Gemini 3.1 Pro：核心推理性能直接翻倍

产品发布与定位 - 谷歌发布最新大模型底座Gemini 3.1 Pro，该模型是支撑其技术突破的底层智力引擎 [1] - 该模型主打多源数据综合、复杂视觉解析与高难度任务拆解 [4] - 谷歌同时上线了Google Antigravity [5] 性能表现与基准测试 - 相比去年十一月发布的Gemini 3 Pro，新模型的推理性能直接翻倍 [2] - 在评估模型破解全新逻辑范式能力的ARC-AGI-2评测中，Gemini 3.1 Pro得分为77.1%，而Gemini 3 Pro为31.1% [2] - 在代码能力方面，SWE-Bench验证得分为80.6%，非常接近Opus 4.6的80.8% [2] - 在Humanity's Last Exam评测中，Gemini 3.1 Pro得分为44.4%，高于Gemini 3 Pro的37.5% [3] - 在Academic reasoning评测中，Gemini 3.1 Pro得分为51.4%，高于Gemini 3 Pro的45.8% [3] - 在GPQA Diamond Scientific knowledge评测中，Gemini 3.1 Pro得分为94.3%，高于Gemini 3 Pro的91.9% [3] - 在Terminal-Bench 2.0评测中，Gemini 3.1 Pro得分为68.5%，高于Gemini 3 Pro的56.9% [3] - 在SWE-Bench Pro (Public)评测中，Gemini 3.1 Pro得分为54.2%，高于Gemini 3 Pro的43.3% [3] - 在LiveCodeBench Pro评测中，Gemini 3.1 Pro的Elo评分为2887，高于Gemini 3 Pro的2439 [3] - 在SciCode评测中，Gemini 3.1 Pro得分为59%，高于Gemini 3 Pro的56% [3] - 在APEX-Agents评测中，Gemini 3.1 Pro得分为33.5%，高于Gemini 3 Pro的18.4% [3] - 在GDPval-AA Elo评测中，Gemini 3.1 Pro得分为1317，高于Gemini 3 Pro的1195 [3] - 在t2-bench Retail评测中，Gemini 3.1 Pro得分为90.8%，高于Gemini 3 Pro的85.3% [3] - 在Agentic tool use Telecom评测中，Gemini 3.1 Pro得分为99.3%，高于Gemini 3 Pro的98.0% [3] - 在MCP Atlas评测中，Gemini 3.1 Pro得分为69.2%，高于Gemini 3 Pro的54.1% [3] - 在BrowseComp评测中，Gemini 3.1 Pro得分为85.9%，高于Gemini 3 Pro的59.2% [3] - 在MMMU Pro评测中，Gemini 3.1 Pro得分为80.5%，略低于Gemini 3 Pro的81.0% [3] - 在MMLU评测中，Gemini 3.1 Pro得分为92.6%，高于Gemini 3 Pro的91.8% [3] - 在MRCR v2 (8-needle) 128k评测中，Gemini 3.1 Pro得分为84.9%，高于Gemini 3 Pro的77.0% [3] - 在Long context performance 1M评测中，Gemini 3.1 Pro得分为26.3%，与Gemini 3 Pro持平 [3] 产品发布与市场推广 - 新模型从发布日起全线推送预览版 [4] - 消费端用户可通过Gemini应用程序和NotebookLM直接调用 [4] - Google AI Pro和Ultra订阅用户拥有更高使用额度，并可直接在Google AI Studio中拉取Gemini API [4] - 配套工具链Gemini CLI与Android Studio已完成首批适配 [4] - 企业端客户可通过Vertex AI和Gemini Enterprise接入测试 [6]