大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
量子位·2025-05-28 12:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的 史上首个"AI科学家" 之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型 解决数独问题能力的排行榜 。 问题集是该公司推出的 全新基准Sudoku-Bench ,包含了 从简单的4x4到复杂的9x9现代数独 问题,旨在考验大模型 创造性推理能力 。 榜单显示,大模型不仅总体正确率只有 15% ,在9×9的现代数独中,即使是高性能模型 o3 Mini High ,正确率也只有2.9%。 | 3 | oluvuu-pollull lesauci kvalu | | --- | --- | | Model | Puzzles Solved | | O3 Mini High | 14.0% | | Gemini 2.5 Pro | 11.0% | | Qwen 3 235B A22B | 8.0% | | Qwen 3 30B A3B | 7.0% | | Grok 3 Mini | 6.0% | ...