Workflow
您猜怎么着?Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了
36氪·2025-08-07 15:05

比赛结果 - Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败对手晋级半决赛 [2] - Grok 4 和 o3 分别战胜 Gemini 2.5 Pro 和 o4-mini 晋级决赛 [5] - o3 以 4-0 横扫 o4-mini 晋级决赛 [7] - Grok 4 与 Gemini 2.5 Pro 在常规赛打成 2:2 平,最终通过加赛才分出胜负 [5] - 决赛将在 X 的 Grok 4 和 OpenAI 的 o3 之间展开 [31] 模型表现 - o3 展现出卓越的稳定性与复杂推理能力,在多个基准测试中取得优异成绩 [7] - o4-mini 作为轻量级模型在速度、成本与性能之间实现平衡,但在象棋任务中表现不佳 [7] - o3 在一盘棋中拿下完美的 100 分准确率评分 [10] - o3 在第12回合和第19回合的两个中间招法令人印象深刻 [12] - Grok 4 表现混乱,频频送子得分,最终通过末日加赛晋级 [16] - Gemini 2.5 Pro 在胜势局面下失误送皇后,导致比赛以和棋收场 [28] 比赛亮点 - o3 仅用12步就完成致胜攻击,手法接近闷杀 [7] - 第三盘对局展现出真正高质量的国际象棋 [12] - 末日加赛精彩纷呈,Gemini 错过一招将死机会 [25] - 比赛被评选为今日最佳对局 [28] 投票结果 - 48.64% 投票者看好 Gemini 2.5 Pro 成为最终赢家 [32] - 39.72% 投票者看好 Grok 4 成为最终赢家 [32] - 6.45% 投票者看好 o3 成为最终赢家 [32] - 5.19% 投票者看好 o4-mini 成为最终赢家 [32]