思维链(CoT)技术
搜索文档
AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠
机器之心· 2026-01-09 10:53
文章核心观点 - 大语言模型的思维链技术存在推理步骤不可靠的问题,但模型内部激活中隐含对推理正确性的判断,即“隐藏的真伪认知” [2][4] - 合肥工业大学研究团队提出一种新方法,通过探测模型内部激活来构建置信度预测器,并以此引导推理路径搜索,从而提升思维链推理的稳定性和准确性 [2][8][10] - 该方法在多项单模态和多模态推理基准测试中表现优异,验证了利用模型内部信号指导生成的有效性 [22][23][24] 方法与创新 - 核心思想是利用模型内部激活中隐含的“真伪认知”来评估推理步骤的可信度,而非依赖表面的Token生成概率 [10] - 创新方法一:从多层注意力头中探测“真伪敏感性”,发现中间层的特定注意力头能区分正确与错误推理步骤,准确率可达80%以上 [10][11][20] - 创新方法二:基于最敏感的注意力头激活,构建轻量级置信度预测器,输出不依赖Token概率的推理质量评分 [12] - 创新方法三:结合生成概率与内部置信度评分,设计新的推理路径搜索策略,主动避开不可靠步骤并优先扩展有潜力的方向 [13][14][16] 实验结果 - 置信度预测器评估显示,其能从模型内部激活中有效提取真伪判别信号,并在校准指标上优于基线方法 [18] - 在单模态推理任务中,该方法在多个数据集上超越基线,例如在SVAMP数据集上比少样本思维链提升5个百分点 [23] - 在多模态推理任务中,该方法同样表现突出,如在RealWorldQA数据集上实现了10.7个百分点的提升 [23] - 消融实验证实,基于置信度的引导至关重要,若采用随机选择策略,方法性能会显著下降甚至低于基线 [25][27] 研究背景与问题 - 大语言模型在复杂推理任务中依赖思维链技术,但其生成的推理链质量不稳定,存在偏差和累积误差 [2][4][6] - 研究聚焦两个关键问题:模型内部激活是否蕴含推理步骤真伪的有效区分信息;能否构建机制利用这些信息选择更可靠的推理路径 [7][8][15] 论文与作者信息 - 论文标题为“Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning”,已被AAAI 2026录用为口头报告论文 [2][5] - 论文代码已在GitHub开源 [5] - 第一作者为合肥工业大学博士生陈紫军,通讯作者为该校副教授胡文波 [28]
为大模型思考装上“猎鹰重装引擎” :腾讯混元 SEAT 重塑深度思考
AI科技大本营· 2025-07-15 19:30
腾讯混元 SEAT 框架技术解析 核心观点 - SEAT 框架通过多轮并行推理(N x M 架构)和语义熵导航,将传统 CoT 单引擎模式升级为"多发并联火箭",显著提升大模型复杂推理能力 [7][15][44] - 采用非侵入式外挂设计,支持主流大模型即插即用,无需额外训练即可实现 7B 模型 +24.5%、32B 模型 +14.1% 的准确率提升 [24][25][28] - 语义熵机制动态监控推理收敛状态,通过预设阈值和自适应巡航两种模式实现精准终止,避免过度思考 [27][32][36] 技术架构创新 动力系统升级 - 引入 N x M 混合扩展范式:N 个并行引擎提供广度探索(N=8 时性能持续提升),M 轮顺序迭代实现深度精炼 [16][17][23] - 每轮推理整合前轮所有分支结果,形成协同进化机制,类似猎鹰火箭的多发并联+多级捆绑设计 [17][20] - 采用轮次间控制策略(inter-round),保持模型黑箱特性,通用性优于需要修改模型结构的方案 [24][25] 智能导航系统 - 语义熵量化 N 个并行答案的语义一致性:低熵(答案趋同)时准确率提升 80% 集中在最低 20% 熵值区间 [30][32][35] - 自适应巡航模式借鉴"秘书问题",动态比较当前熵值与初始基线,实现无阈值终止决策 [36][37] - 针对 7B 小模型的熵坍塌现象(错误答案重复),自动在性能峰值时终止,防止过载自毁 [38][40] 行业影响 - 推动测试时计算扩展(Test-Time Scaling)成为新趋势,从"更大模型"转向"更聪明推理" [12][42] - 为开源/闭源模型提供统一解决方案,在 AIME-2025 数学竞赛等复杂任务中验证有效性 [7][21][44] - 开创 Hybrid Scaling 新范式,平衡顺序扩展的深度精炼与并行扩展的多样性探索 [15][19][42]
只用2700万参数,这个推理模型超越了DeepSeek和Claude
机器之心· 2025-06-30 18:23
大模型架构变革 - 当前大语言模型(LLM)采用思维链(CoT)技术存在任务分解复杂、数据需求大、高延迟等问题 [2] - 分层推理模型(HRM)通过循环架构实现高计算深度,仅需2700万参数和1000个训练样本即可在复杂推理任务中表现卓越 [3][4] - HRM无需预训练或CoT数据,在数独、迷宫路径查找等任务中达到近乎完美性能,并在ARC-AGI基准上超越更大模型 [5][7] HRM设计原理 - 核心灵感源于大脑分层处理和多时间尺度机制:高级模块负责抽象规划(慢速),低级模块处理细节计算(快速) [12][13] - 采用四个可学习组件(输入网络、高低级循环模块、输出网络)实现层级收敛性,H模块稳定收敛,L模块周期性重置 [14][15][17] - 通过一步梯度近似法(O(1)内存)和深度监督机制优化训练效率,避免传统BPTT算法的深层信用分配难题 [19][20][23] 性能与实验验证 - 在ARC-AGI、数独、迷宫任务中,HRM表现出类似深度优先搜索和渐进优化的底层推理算法 [31] - 训练后高层模块与低层模块自然涌现维度层级分化,而非架构固有特性 [33][34] - 具备图灵完备性,可模拟任何图灵机,通过自适应计算时间(ACT)动态调整资源分配 [35][36][27] 技术对比优势 - 相比CoT模型,HRM在符号树搜索任务(如Sudoku-Extreme)中准确率接近100%,而标准Transformer增加深度无效 [10] - 强化学习(RL)需依赖CoT能力且数据效率低,HRM通过密集梯度反馈实现连续空间运算,生物合理性更高 [37][39] - 推理阶段仅需调整计算限制参数Mmax即可扩展性能,无需重新训练 [28]