思维社会
搜索文档
DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了
36氪· 2026-01-26 17:14
大模型推理能力的跃迁与“思维社会”假说 - 过去两年,大模型的推理能力在数学、逻辑、多步规划等复杂任务上出现明显跃迁,以OpenAI的o系列、DeepSeek-R1、QwQ-32B为代表的推理模型,开始稳定拉开与传统指令微调模型的差距 [1] - 谷歌与芝加哥大学等机构的研究提出,推理能力提升的本质并非仅是计算步数增加,而是模型在推理过程中隐式模拟了一种复杂的、类多智能体的交互结构,即“思维社会” [2] - 研究发现,推理模型为解决难题,会模拟不同角色间的内部对话,进行争论、纠正、表达惊讶并调和不同观点以达成正确答案,这种社会化组织形式有助于对解空间进行更高效的探索 [2][4] 推理模型的内部行为特征 - 与基线模型和仅进行指令微调的模型相比,DeepSeek-R1和QwQ-32B等推理模型展现出显著更高的视角多样性,会激活更广泛、异质性更强的、与人格和专业知识相关的特征,并在这些特征之间产生更充分的冲突 [3] - 这种类多智能体的内部结构具体表现为一系列对话式行为,包括提问-回答序列、视角切换以及对冲突观点的整合,同时体现在刻画激烈往返互动的社会情绪角色之中 [3] - 研究识别出四类具体的对话行为:1) 问答行为;2) 视角转换;3) 观点冲突;4) 观点调和 [10] 推理模型与指令微调模型的对比证据 - 实验结果表明,即便在推理轨迹长度相近的条件下,推理模型依然表现出更高频率的对话式行为和社会情绪角色 [13] - 数据显示,与DeepSeek-V3相比,DeepSeek-R1在提问-回答(效应量=0.345)、视角切换(效应量=0.213)以及整合与调和(效应量=0.191)方面均显著更频繁 [16] - QwQ-32B相对于Qwen-2.5-32B-IT也呈现出高度一致的趋势,在提问-回答、视角切换、视角冲突和整合行为上均显著更多 [16] - 所有指令微调模型的对话式行为出现频率都始终处于较低水平,其推理过程更像是一段独白,而非对话的模拟 [16] 对话行为对推理性能的因果影响 - 通过特征干预实验发现,对与对话相关的“惊讶”特征(特征30939)进行正向引导,能显著提升模型在特定任务上的表现 [12] - 在Countdown游戏中,对该特征进行正向引导(+10),会使任务准确率从27.1%提升至54.8%,几乎翻倍;而进行负向引导(−10)则会将准确率降低至23.8% [18] - 引导强度的变化会系统性影响对话行为:当引导强度从0增加到+10时,四类对话式行为均显著增强;反之,当引导强度从0降至−10时,这些行为被系统性抑制 [18] 强化学习与对话结构的自发涌现 - 受控强化学习实验显示,即便仅以推理准确率作为奖励信号,基础模型也会自发地增加对话式行为 [3] - 自教式强化学习实验进一步证实,对话式结构本身能够在强化学习过程中促进推理策略的自发涌现与加速形成 [22] - 在训练中引入对话式脚手架,相较于未微调的基础模型以及采用独白式推理微调的模型,能够显著加速推理能力的提升 [3] 研究的方法论与验证 - 研究采用以Gemini-2.5-Pro模型作为评估器的方法,从推理轨迹中识别对话行为、社会情感角色和认知行为,其标注结果与GPT-5.2及人工评分均展现出高度一致性 [7][9] - 社会情感角色的分析基于Bales互动过程分析框架,将话语划分为12种角色类型,并归总为四大高阶类别:信息给予、信息征询、积极情感、消极情感 [8][10] - 研究使用Jaccard指数来量化社会情绪角色的互惠平衡性,指数越高代表模型的互动模式越均衡、趋近于对话形态 [8] - 认知行为的识别包括四类:结果核验、路径回溯、子目标拆解、逆向推理 [11]
DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了
机器之心· 2026-01-26 12:08
核心观点 - 大模型推理能力的跃迁并非仅源于计算步数的增加,而是源于其内部模拟了一种复杂的、类多智能体的交互结构,即“思维社会”[1][2] - 这种社会化思维结构通过对话式行为和社会情感角色,促进关键认知策略的运作,从而更高效地探索解空间并提升推理准确率[2][3][16][29] - 实验证明,对对话特征进行正向引导可显著提升模型在特定任务上的准确率,而强化学习实验表明模型在仅奖励正确答案时会自发强化对话式行为[24][30] 对话式行为分析 - 研究识别出四类对话行为:问答行为、视角转换、观点冲突、观点调和[7][8] - 在推理轨迹长度相近的条件下,推理模型(如DeepSeek-R1、QwQ-32B)比指令微调模型展现出显著更高频率的对话式行为[16] - 与DeepSeek-V3相比,DeepSeek-R1在提问-回答、视角切换以及整合与调和方面均显著更频繁[18] - 无论参数规模大小(8B、32B、70B或671B),所有指令微调模型的对话式行为出现频率都始终处于较低水平[21] - 当模型面对更高难度的任务(如研究生水平的科学推理GPQA、高难度数学题)时,对话式行为会更加明显[23] 社会情感角色分析 - 研究基于Bales互动过程分析框架,将话语划分为12种互动角色类型,并归总为四大高阶类别:信息给予、信息征询、积极情感、消极情感[10][11] - 推理模型展现出更具互惠性的社会情绪角色结构:它们既会提出问题、请求指引,也会给予回应,同时表现出负向与正向的情绪角色[21] - 指令微调模型主要以单向方式给出指引、观点和建议,几乎不进行反向提问,也缺乏情绪层面的互动,其推理过程更像是一段独白[22] - 使用Jaccard指数量化发现,推理模型更倾向于以互相协调的方式组织不同角色,而不是将它们孤立地、零散地使用[22] 特征干预与准确率提升 - 通过稀疏自编码器识别出特征30939,其定义为“用于表达惊讶、顿悟或认同的话语标记”,该特征在65.7%的会话中占比,且高度稀疏[14] - 在Countdown游戏任务中,对对话式惊讶特征进行正向引导(+10),会使准确率从27.1%提升至54.8%,几乎翻倍;而负向引导(−10)则会将准确率降低至23.8%[24] - 当引导强度从0增加到+10时,四类对话式行为均显著增强;反之,当引导强度从0降至−10时,这些对话行为会被系统性抑制[25] - 正向引导会诱发模型在推理过程中主动质疑先前的解法,体现出明显的视角切换和观点冲突;负向引导则会生成相对平铺直叙的推理文本,缺乏内部讨论[27] 认知策略与强化学习 - 对话特征通过两条路径提升推理能力:直接帮助模型更有效地探索解空间;通过脚手架式地支持验证、回溯和子目标分解等认知策略,推动系统性的问题求解过程[29] - 自教式强化学习实验显示,当只奖励正确答案时,大模型会自发强化对话式行为,表明对话式结构本身能够在强化学习过程中促进推理策略的自发涌现与加速形成[30]