谷歌 Gemini 3.1 Pro 屠榜封神，清华姚顺宇出手！Claude 和 GPT 被逼入死角

谷歌DeepMind发布新一代旗舰模型Gemini 3.1 Pro - 谷歌DeepMind发布下一代旗舰模型Gemini 3.1 Pro，该模型在多项基准测试中刷新了SOTA（State-of-the-Art）成绩，被描述为“AI新王” [4][17] - 模型在公认最难的ARC-AGI-2抽象推理测试中获得77.1%的最高分，性能是上一代Gemini 3 Pro（31.1%）的两倍有余，并超越了Claude Opus 4.6（68.8%）和GPT-5.2（52.9%）[3][8][21] - 模型已正式在Gemini和NotebookLM中上线，开发者可通过Google AI Studio、Antigravity以及Android Studio抢先体验 [14] 模型核心性能与基准测试结果 - 在“人类最后考试”（Humanity‘s Last Exam）学术推理测试中，Gemini 3.1 Pro在无工具辅助下得分为44.4%，高于GPT-5.2的34.5%和Claude Opus 4.6的40.0% [6][21] - 在科学知识测试GPQA Diamond中，模型获得94.3%的高分，领先于Claude Sonnet 4.6的89.9%和GPT-5.2的92.4% [6] - 在编程与智能体领域表现突出：在LiveCodeBench Pro竞赛编程测试中获得2887 Elo分；在Terminal-Bench 2.0终端编码测试中得分为68.5%，高于GPT-5.3-Codex的64.7%；在APEX-Agents长周期专业任务测试中以33.5%的得分领先于Opus 4.6的29.8%和GPT-5.2的23.0% [6][22] - 在长上下文处理方面，模型支持高达100万Token的上下文长度，在MRCR v2的128k平均测试中得分为84.9%，并在1M Token的测试中获得26.3%的分数，而竞争对手GPT-5.2和Claude Opus 4.6在此级别上显示“不支持” [19][25][26] - 在AAII综合评测中，Gemini 3.1 Pro总分领先Claude Opus 4.6达4分，且其API调用成本不到后者的一半 [13] 模型的多模态与创意应用能力 - 模型具备原生全模态输入能力，并在实际应用中展现出强大的生产力重塑能力，例如将概念转化为图解、数据转化为图表、创意转化为现实 [30] - 在创意编程方面，模型能根据文本提示直接生成可嵌入网页的SVG动画代码，文件体积小且支持无限放大 [32] - 模型能够整合复杂系统，例如构建实时航天数据看板，接入公开遥测数据流展示国际空间站轨迹 [34] - 模型可用于交互设计，例如用纯代码编写复杂的3D椋鸟群舞特效，并支持手势追踪与实时生成式配乐，是多模态交互界面原型开发的利器 [36][37] - 模型能将文学主题转化为精美代码，例如为《呼啸山庄》设计现代风格的个人主页，精准捕捉原著氛围 [39] 行业影响与竞争格局 - 此次发布被视作对AI行业格局的重塑，硅谷的AI战局主要玩家被视为谷歌DeepMind和Anthropic，而OpenAI似乎正逐渐失去在主战场上的主动权 [16][60] - 谷歌通过快速的迭代速度展示了其在通往AGI道路上的实力，表明只有硬件算力与算法深度耦合的玩家才能在下半场竞争中立足 [61]