Workflow
测试时计算扩展
icon
搜索文档
高德纳:「震惊!震惊!」Claude破解《计算机程序设计艺术》难题
机器之心· 2026-03-05 19:03
AI在数学与计算机科学领域的突破性进展 - 著名计算机科学家、图灵奖得主高德纳对AI(Claude Opus 4.6)的强大能力表示震惊,因其解决了他研究数周的开放性问题[2][5][8] - 该事件标志着自动推理和创造性问题解决领域的巨大进步,引发了技术社区的广泛关注[8][22] AI解决具体图论难题的过程 - 高德纳在为著作撰写内容时,遇到了一个关于有向图分解为三个长度为m³的有向环的开放性问题[13] - 他的朋友Filip Stappers将问题交给Claude处理,在人类指导下,Claude通过超过30次探索,最终编写了一个能为所有奇数m找到解的Python程序[11][14][25] - 探索过程中,Claude自主更换数学工具,识别出有向图为凯莱图,并引入了“纤维分解”框架,最终在第31次探索时给出具体构造程序[15][16][25] - 高德纳随后进行了严谨的数学证明,验证了3到101之间所有奇数m的分解方案,并指出在所有同类分解法中恰好有760种对奇数m有效的解,Claude准确找到了其中一种[19][20] AI在数学研究中的能力与局限 - 开发者认为,此次事件的核心意义在于AI展现了自主更换探索工具、排查无效路径的能力[22] - 对于偶数m的情况,Claude未能发现通用规律,后续甚至无法正确编写探索程序,目前仍是未解之谜[11][21][26] - 另一位研究者借助gpt-5.3-codex生成了处理偶数m(高达m=2000)的代码,但由于模式复杂,人工证明其正确性难度极大[26] AI在数学与编程竞赛中的整体进展 - 在数学竞赛方面,2025年7月,Google DeepMind的Gemini(Deep Think模式)在国际数学奥林匹克(IMO)试题评测中达到金牌标准成绩(35分),并能输出完整自然语言证明[27] - OpenAI的内部模型也达到了类似水平[27] - 在编程竞赛方面,2025年9月,OpenAI和Gemini都声称达到了国际大学生程序设计竞赛(ICPC)金牌水平,能在严格时间限制内解决高难度算法问题[27] AI在科研协作中的角色演变 - AI在科研中的角色显著增强,开始借助外部工具参与数学研究与问题验证[27] - 例如,GPT-5.2借助外部工具,协助数学家解决了数个悬而未决的Erdős猜想,并得到了数学家陶哲轩的验证[27] - 部分系统已展示出生成研究草稿与进行结构化推理的能力[27] - 驱动突破的核心机制转向“测试时计算扩展”或“慢思考”策略,通过在推理阶段投入更多算力,并行探索多条路径并进行自我验证[27] - 展望未来,随着自然语言理解与形式化逻辑的深度融合,AI将成为数学家与工程师身边得力的合作者,帮助攻克停滞多年的科学难题[27]
为大模型思考装上“猎鹰重装引擎” :腾讯混元 SEAT 重塑深度思考
AI科技大本营· 2025-07-15 19:30
腾讯混元 SEAT 框架技术解析 核心观点 - SEAT 框架通过多轮并行推理(N x M 架构)和语义熵导航,将传统 CoT 单引擎模式升级为"多发并联火箭",显著提升大模型复杂推理能力 [7][15][44] - 采用非侵入式外挂设计,支持主流大模型即插即用,无需额外训练即可实现 7B 模型 +24.5%、32B 模型 +14.1% 的准确率提升 [24][25][28] - 语义熵机制动态监控推理收敛状态,通过预设阈值和自适应巡航两种模式实现精准终止,避免过度思考 [27][32][36] 技术架构创新 动力系统升级 - 引入 N x M 混合扩展范式:N 个并行引擎提供广度探索(N=8 时性能持续提升),M 轮顺序迭代实现深度精炼 [16][17][23] - 每轮推理整合前轮所有分支结果,形成协同进化机制,类似猎鹰火箭的多发并联+多级捆绑设计 [17][20] - 采用轮次间控制策略(inter-round),保持模型黑箱特性,通用性优于需要修改模型结构的方案 [24][25] 智能导航系统 - 语义熵量化 N 个并行答案的语义一致性:低熵(答案趋同)时准确率提升 80% 集中在最低 20% 熵值区间 [30][32][35] - 自适应巡航模式借鉴"秘书问题",动态比较当前熵值与初始基线,实现无阈值终止决策 [36][37] - 针对 7B 小模型的熵坍塌现象(错误答案重复),自动在性能峰值时终止,防止过载自毁 [38][40] 行业影响 - 推动测试时计算扩展(Test-Time Scaling)成为新趋势,从"更大模型"转向"更聪明推理" [12][42] - 为开源/闭源模型提供统一解决方案,在 AIME-2025 数学竞赛等复杂任务中验证有效性 [7][21][44] - 开创 Hybrid Scaling 新范式,平衡顺序扩展的深度精炼与并行扩展的多样性探索 [15][19][42]