思维链(CoT)技术

搜索文档
为大模型思考装上“猎鹰重装引擎” :腾讯混元 SEAT 重塑深度思考
AI科技大本营· 2025-07-15 19:30
腾讯混元 SEAT 框架技术解析 核心观点 - SEAT 框架通过多轮并行推理(N x M 架构)和语义熵导航,将传统 CoT 单引擎模式升级为"多发并联火箭",显著提升大模型复杂推理能力 [7][15][44] - 采用非侵入式外挂设计,支持主流大模型即插即用,无需额外训练即可实现 7B 模型 +24.5%、32B 模型 +14.1% 的准确率提升 [24][25][28] - 语义熵机制动态监控推理收敛状态,通过预设阈值和自适应巡航两种模式实现精准终止,避免过度思考 [27][32][36] 技术架构创新 动力系统升级 - 引入 N x M 混合扩展范式:N 个并行引擎提供广度探索(N=8 时性能持续提升),M 轮顺序迭代实现深度精炼 [16][17][23] - 每轮推理整合前轮所有分支结果,形成协同进化机制,类似猎鹰火箭的多发并联+多级捆绑设计 [17][20] - 采用轮次间控制策略(inter-round),保持模型黑箱特性,通用性优于需要修改模型结构的方案 [24][25] 智能导航系统 - 语义熵量化 N 个并行答案的语义一致性:低熵(答案趋同)时准确率提升 80% 集中在最低 20% 熵值区间 [30][32][35] - 自适应巡航模式借鉴"秘书问题",动态比较当前熵值与初始基线,实现无阈值终止决策 [36][37] - 针对 7B 小模型的熵坍塌现象(错误答案重复),自动在性能峰值时终止,防止过载自毁 [38][40] 行业影响 - 推动测试时计算扩展(Test-Time Scaling)成为新趋势,从"更大模型"转向"更聪明推理" [12][42] - 为开源/闭源模型提供统一解决方案,在 AIME-2025 数学竞赛等复杂任务中验证有效性 [7][21][44] - 开创 Hybrid Scaling 新范式,平衡顺序扩展的深度精炼与并行扩展的多样性探索 [15][19][42]
只用2700万参数,这个推理模型超越了DeepSeek和Claude
机器之心· 2025-06-30 18:23
大模型架构变革 - 当前大语言模型(LLM)采用思维链(CoT)技术存在任务分解复杂、数据需求大、高延迟等问题 [2] - 分层推理模型(HRM)通过循环架构实现高计算深度,仅需2700万参数和1000个训练样本即可在复杂推理任务中表现卓越 [3][4] - HRM无需预训练或CoT数据,在数独、迷宫路径查找等任务中达到近乎完美性能,并在ARC-AGI基准上超越更大模型 [5][7] HRM设计原理 - 核心灵感源于大脑分层处理和多时间尺度机制:高级模块负责抽象规划(慢速),低级模块处理细节计算(快速) [12][13] - 采用四个可学习组件(输入网络、高低级循环模块、输出网络)实现层级收敛性,H模块稳定收敛,L模块周期性重置 [14][15][17] - 通过一步梯度近似法(O(1)内存)和深度监督机制优化训练效率,避免传统BPTT算法的深层信用分配难题 [19][20][23] 性能与实验验证 - 在ARC-AGI、数独、迷宫任务中,HRM表现出类似深度优先搜索和渐进优化的底层推理算法 [31] - 训练后高层模块与低层模块自然涌现维度层级分化,而非架构固有特性 [33][34] - 具备图灵完备性,可模拟任何图灵机,通过自适应计算时间(ACT)动态调整资源分配 [35][36][27] 技术对比优势 - 相比CoT模型,HRM在符号树搜索任务(如Sudoku-Extreme)中准确率接近100%,而标准Transformer增加深度无效 [10] - 强化学习(RL)需依赖CoT能力且数据效率低,HRM通过密集梯度反馈实现连续空间运算,生物合理性更高 [37][39] - 推理阶段仅需调整计算限制参数Mmax即可扩展性能,无需重新训练 [28]