大模型推理能力的跃迁与“思维社会”假说 - 过去两年,大模型的推理能力在数学、逻辑、多步规划等复杂任务上出现明显跃迁,以OpenAI的o系列、DeepSeek-R1、QwQ-32B为代表的推理模型,开始稳定拉开与传统指令微调模型的差距 [1] - 谷歌与芝加哥大学等机构的研究提出,推理能力提升的本质并非仅是计算步数增加,而是模型在推理过程中隐式模拟了一种复杂的、类多智能体的交互结构,即“思维社会” [2] - 研究发现,推理模型为解决难题,会模拟不同角色间的内部对话,进行争论、纠正、表达惊讶并调和不同观点以达成正确答案,这种社会化组织形式有助于对解空间进行更高效的探索 [2][4] 推理模型的内部行为特征 - 与基线模型和仅进行指令微调的模型相比,DeepSeek-R1和QwQ-32B等推理模型展现出显著更高的视角多样性,会激活更广泛、异质性更强的、与人格和专业知识相关的特征,并在这些特征之间产生更充分的冲突 [3] - 这种类多智能体的内部结构具体表现为一系列对话式行为,包括提问-回答序列、视角切换以及对冲突观点的整合,同时体现在刻画激烈往返互动的社会情绪角色之中 [3] - 研究识别出四类具体的对话行为:1) 问答行为;2) 视角转换;3) 观点冲突;4) 观点调和 [10] 推理模型与指令微调模型的对比证据 - 实验结果表明,即便在推理轨迹长度相近的条件下,推理模型依然表现出更高频率的对话式行为和社会情绪角色 [13] - 数据显示,与DeepSeek-V3相比,DeepSeek-R1在提问-回答(效应量=0.345)、视角切换(效应量=0.213)以及整合与调和(效应量=0.191)方面均显著更频繁 [16] - QwQ-32B相对于Qwen-2.5-32B-IT也呈现出高度一致的趋势,在提问-回答、视角切换、视角冲突和整合行为上均显著更多 [16] - 所有指令微调模型的对话式行为出现频率都始终处于较低水平,其推理过程更像是一段独白,而非对话的模拟 [16] 对话行为对推理性能的因果影响 - 通过特征干预实验发现,对与对话相关的“惊讶”特征(特征30939)进行正向引导,能显著提升模型在特定任务上的表现 [12] - 在Countdown游戏中,对该特征进行正向引导(+10),会使任务准确率从27.1%提升至54.8%,几乎翻倍;而进行负向引导(−10)则会将准确率降低至23.8% [18] - 引导强度的变化会系统性影响对话行为:当引导强度从0增加到+10时,四类对话式行为均显著增强;反之,当引导强度从0降至−10时,这些行为被系统性抑制 [18] 强化学习与对话结构的自发涌现 - 受控强化学习实验显示,即便仅以推理准确率作为奖励信号,基础模型也会自发地增加对话式行为 [3] - 自教式强化学习实验进一步证实,对话式结构本身能够在强化学习过程中促进推理策略的自发涌现与加速形成 [22] - 在训练中引入对话式脚手架,相较于未微调的基础模型以及采用独白式推理微调的模型,能够显著加速推理能力的提升 [3] 研究的方法论与验证 - 研究采用以Gemini-2.5-Pro模型作为评估器的方法,从推理轨迹中识别对话行为、社会情感角色和认知行为,其标注结果与GPT-5.2及人工评分均展现出高度一致性 [7][9] - 社会情感角色的分析基于Bales互动过程分析框架,将话语划分为12种角色类型,并归总为四大高阶类别:信息给予、信息征询、积极情感、消极情感 [8][10] - 研究使用Jaccard指数来量化社会情绪角色的互惠平衡性,指数越高代表模型的互动模式越均衡、趋近于对话形态 [8] - 认知行为的识别包括四类:结果核验、路径回溯、子目标拆解、逆向推理 [11]
DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了