谷歌Gemini 3把GPT-5.1打成计量单位!马斯克奥特曼都服了
不得了。 谷歌Gemini 3 Pro进步太大了,与 上一代2.5 Pro之间差出一个GPT-5.1 (狗头)。 梦晨 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 新模型在几乎所有基准测试中超过GPT-5.1和Claude4.5,包括 人类最后的考试、ARC-AGI-2 这些专为AGI准备的测试, 数学的AIME 2025 带工具拿满分,还刷新了之前让大模型全员得0分的 LiveCodeBench Pro 纪录。 | Benchmark | Description | | Gemini 3 Pro | Gemini 2.5 Pro | Claude Sonnet 4.5 | GPT-5.1 | | --- | --- | --- | --- | --- | --- | --- | | Humanity's Last Exam | Academic reasoning | No tools | 37.5% | 21.6% | 13.7% | 26.5% | | | | With search and code execution | 45.8% | - | - | - | | ARC-AGI-2 | ...