变异数独

搜索文档
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
量子位· 2025-05-28 12:22
大模型数独能力研究 - Sakana AI推出全新基准测试Sudoku-Bench 包含4x4至9x9传统及变异数独问题 旨在测试AI创造性推理能力[1][6][15] - 测试结果显示大模型总体正确率仅15% 9x9数独中高性能模型o3 Mini High正确率低至2 9%[1][25] - 变异数独需多步逻辑推理 无法通过记忆模板解决 成为测试AI推理能力的理想选择[11][12] 模型表现分析 - 在辅助条件下部分模型表现较好 但原始谜题中先进模型平均连一个正确数字都难以放置[20][21] - 4x4网格模型正确率40%-73% 但9x9网格接近0% 常见错误包括错误解答 放弃解题及误判规则[25] - 多步推理模式下O3 Mini High在4x4数独正确率达60% 但单次推理模式总体正确率仅14%[23] Sakana AI技术布局 - 公司由Transformer作者Llion Jones创立 专注生成文本和图像的AI基础模型研究[24] - 已发布AI科学家和AI审稿人 前者可独立完成十篇学术论文 后者能评审AI论文[26][27] - 开发连续思维机器(CTM)模型 通过逐步思考解决复杂问题 如迷宫[29] 行业合作与数据 - 与Cracking The Cryptic合作 获取数独解题视频数据用于训练推理模型[31][32] - 数独公司Nikoli提供100道手工题目 出题人定制"奇偶鱼"变异数独游戏[16][34] - 项目在2025 NVIDIA GTC大会展示 黄仁勋认为此类谜题可提升AI推理能力[3][4]