测试时计算扩展 - 财报，业绩电话会，研报，新闻

测试时计算扩展

搜索文档

机器之心· 2026-03-05 19:03

AI在数学与计算机科学领域的突破性进展 - 著名计算机科学家、图灵奖得主高德纳对AI（Claude Opus 4.6）的强大能力表示震惊，因其解决了他研究数周的开放性问题[2][5][8] - 该事件标志着自动推理和创造性问题解决领域的巨大进步，引发了技术社区的广泛关注[8][22] AI解决具体图论难题的过程 - 高德纳在为著作撰写内容时，遇到了一个关于有向图分解为三个长度为m³的有向环的开放性问题[13] - 他的朋友Filip Stappers将问题交给Claude处理，在人类指导下，Claude通过超过30次探索，最终编写了一个能为所有奇数m找到解的Python程序[11][14][25] - 探索过程中，Claude自主更换数学工具，识别出有向图为凯莱图，并引入了“纤维分解”框架，最终在第31次探索时给出具体构造程序[15][16][25] - 高德纳随后进行了严谨的数学证明，验证了3到101之间所有奇数m的分解方案，并指出在所有同类分解法中恰好有760种对奇数m有效的解，Claude准确找到了其中一种[19][20] AI在数学研究中的能力与局限 - 开发者认为，此次事件的核心意义在于AI展现了自主更换探索工具、排查无效路径的能力[22] - 对于偶数m的情况，Claude未能发现通用规律，后续甚至无法正确编写探索程序，目前仍是未解之谜[11][21][26] - 另一位研究者借助gpt-5.3-codex生成了处理偶数m（高达m=2000）的代码，但由于模式复杂，人工证明其正确性难度极大[26] AI在数学与编程竞赛中的整体进展 - 在数学竞赛方面，2025年7月，Google DeepMind的Gemini（Deep Think模式）在国际数学奥林匹克（IMO）试题评测中达到金牌标准成绩（35分），并能输出完整自然语言证明[27] - OpenAI的内部模型也达到了类似水平[27] - 在编程竞赛方面，2025年9月，OpenAI和Gemini都声称达到了国际大学生程序设计竞赛（ICPC）金牌水平，能在严格时间限制内解决高难度算法问题[27] AI在科研协作中的角色演变 - AI在科研中的角色显著增强，开始借助外部工具参与数学研究与问题验证[27] - 例如，GPT-5.2借助外部工具，协助数学家解决了数个悬而未决的Erdős猜想，并得到了数学家陶哲轩的验证[27] - 部分系统已展示出生成研究草稿与进行结构化推理的能力[27] - 驱动突破的核心机制转向“测试时计算扩展”或“慢思考”策略，通过在推理阶段投入更多算力，并行探索多条路径并进行自我验证[27] - 展望未来，随着自然语言理解与形式化逻辑的深度融合，AI将成为数学家与工程师身边得力的合作者，帮助攻克停滞多年的科学难题[27]

Artificial Intelligence

Artificial Intelligence

Claude Opus 4.6

为大模型思考装上“猎鹰重装引擎” ：腾讯混元 SEAT 重塑深度思考

AI科技大本营· 2025-07-15 19:30

腾讯混元 SEAT 框架技术解析核心观点 - SEAT 框架通过多轮并行推理（N x M 架构）和语义熵导航，将传统 CoT 单引擎模式升级为"多发并联火箭"，显著提升大模型复杂推理能力 [7][15][44] - 采用非侵入式外挂设计，支持主流大模型即插即用，无需额外训练即可实现 7B 模型 +24.5%、32B 模型 +14.1% 的准确率提升 [24][25][28] - 语义熵机制动态监控推理收敛状态，通过预设阈值和自适应巡航两种模式实现精准终止，避免过度思考 [27][32][36] 技术架构创新动力系统升级 - 引入 N x M 混合扩展范式：N 个并行引擎提供广度探索（N=8 时性能持续提升），M 轮顺序迭代实现深度精炼 [16][17][23] - 每轮推理整合前轮所有分支结果，形成协同进化机制，类似猎鹰火箭的多发并联+多级捆绑设计 [17][20] - 采用轮次间控制策略（inter-round），保持模型黑箱特性，通用性优于需要修改模型结构的方案 [24][25] 智能导航系统 - 语义熵量化 N 个并行答案的语义一致性：低熵（答案趋同）时准确率提升 80% 集中在最低 20% 熵值区间 [30][32][35] - 自适应巡航模式借鉴"秘书问题"，动态比较当前熵值与初始基线，实现无阈值终止决策 [36][37] - 针对 7B 小模型的熵坍塌现象（错误答案重复），自动在性能峰值时终止，防止过载自毁 [38][40] 行业影响 - 推动测试时计算扩展（Test-Time Scaling）成为新趋势，从"更大模型"转向"更聪明推理" [12][42] - 为开源/闭源模型提供统一解决方案，在 AIME-2025 数学竞赛等复杂任务中验证有效性 [7][21][44] - 开创 Hybrid Scaling 新范式，平衡顺序扩展的深度精炼与并行扩展的多样性探索 [15][19][42]

Artificial Intelligence

Artificial Intelligence

腾讯混元SEAT框架

Grok 4 Heavy