大模型玩不好数独？！Transformer作者初创公司公布排行榜：o3 Mini High“变异数独”正确率仅2.9%

大模型数独能力研究 - Sakana AI推出全新基准测试Sudoku-Bench 包含4x4至9x9传统及变异数独问题旨在测试AI创造性推理能力[1][6][15] - 测试结果显示大模型总体正确率仅15% 9x9数独中高性能模型o3 Mini High正确率低至2 9%[1][25] - 变异数独需多步逻辑推理无法通过记忆模板解决成为测试AI推理能力的理想选择[11][12] 模型表现分析 - 在辅助条件下部分模型表现较好但原始谜题中先进模型平均连一个正确数字都难以放置[20][21] - 4x4网格模型正确率40%-73% 但9x9网格接近0% 常见错误包括错误解答放弃解题及误判规则[25] - 多步推理模式下O3 Mini High在4x4数独正确率达60% 但单次推理模式总体正确率仅14%[23] Sakana AI技术布局 - 公司由Transformer作者Llion Jones创立专注生成文本和图像的AI基础模型研究[24] - 已发布AI科学家和AI审稿人前者可独立完成十篇学术论文后者能评审AI论文[26][27] - 开发连续思维机器(CTM)模型通过逐步思考解决复杂问题如迷宫[29] 行业合作与数据 - 与Cracking The Cryptic合作获取数独解题视频数据用于训练推理模型[31][32] - 数独公司Nikoli提供100道手工题目出题人定制"奇偶鱼"变异数独游戏[16][34] - 项目在2025 NVIDIA GTC大会展示黄仁勋认为此类谜题可提升AI推理能力[3][4]