谷歌DeepMind发布新一代旗舰模型Gemini 3.1 Pro - 谷歌DeepMind发布下一代旗舰模型Gemini 3.1 Pro,该模型在多项基准测试中刷新了SOTA(State-of-the-Art)成绩,被描述为“AI新王” [4][17] - 模型在公认最难的ARC-AGI-2抽象推理测试中获得77.1%的最高分,性能是上一代Gemini 3 Pro(31.1%)的两倍有余,并超越了Claude Opus 4.6(68.8%)和GPT-5.2(52.9%)[3][8][21] - 模型已正式在Gemini和NotebookLM中上线,开发者可通过Google AI Studio、Antigravity以及Android Studio抢先体验 [14] 模型核心性能与基准测试结果 - 在“人类最后考试”(Humanity‘s Last Exam)学术推理测试中,Gemini 3.1 Pro在无工具辅助下得分为44.4%,高于GPT-5.2的34.5%和Claude Opus 4.6的40.0% [6][21] - 在科学知识测试GPQA Diamond中,模型获得94.3%的高分,领先于Claude Sonnet 4.6的89.9%和GPT-5.2的92.4% [6] - 在编程与智能体领域表现突出:在LiveCodeBench Pro竞赛编程测试中获得2887 Elo分;在Terminal-Bench 2.0终端编码测试中得分为68.5%,高于GPT-5.3-Codex的64.7%;在APEX-Agents长周期专业任务测试中以33.5%的得分领先于Opus 4.6的29.8%和GPT-5.2的23.0% [6][22] - 在长上下文处理方面,模型支持高达100万Token的上下文长度,在MRCR v2的128k平均测试中得分为84.9%,并在1M Token的测试中获得26.3%的分数,而竞争对手GPT-5.2和Claude Opus 4.6在此级别上显示“不支持” [19][25][26] - 在AAII综合评测中,Gemini 3.1 Pro总分领先Claude Opus 4.6达4分,且其API调用成本不到后者的一半 [13] 模型的多模态与创意应用能力 - 模型具备原生全模态输入能力,并在实际应用中展现出强大的生产力重塑能力,例如将概念转化为图解、数据转化为图表、创意转化为现实 [30] - 在创意编程方面,模型能根据文本提示直接生成可嵌入网页的SVG动画代码,文件体积小且支持无限放大 [32] - 模型能够整合复杂系统,例如构建实时航天数据看板,接入公开遥测数据流展示国际空间站轨迹 [34] - 模型可用于交互设计,例如用纯代码编写复杂的3D椋鸟群舞特效,并支持手势追踪与实时生成式配乐,是多模态交互界面原型开发的利器 [36][37] - 模型能将文学主题转化为精美代码,例如为《呼啸山庄》设计现代风格的个人主页,精准捕捉原著氛围 [39] 行业影响与竞争格局 - 此次发布被视作对AI行业格局的重塑,硅谷的AI战局主要玩家被视为谷歌DeepMind和Anthropic,而OpenAI似乎正逐渐失去在主战场上的主动权 [16][60] - 谷歌通过快速的迭代速度展示了其在通往AGI道路上的实力,表明只有硬件算力与算法深度耦合的玩家才能在下半场竞争中立足 [61]
谷歌 Gemini 3.1 Pro 屠榜封神,清华姚顺宇出手!Claude 和 GPT 被逼入死角