DeepSeek-R1推理智能从哪儿来？谷歌新研究：模型内心多个角色吵翻了

核心观点 - 大模型推理能力的跃迁并非仅源于计算步数的增加，而是源于其内部模拟了一种复杂的、类多智能体的交互结构，即“思维社会”[1][2] - 这种社会化思维结构通过对话式行为和社会情感角色，促进关键认知策略的运作，从而更高效地探索解空间并提升推理准确率[2][3][16][29] - 实验证明，对对话特征进行正向引导可显著提升模型在特定任务上的准确率，而强化学习实验表明模型在仅奖励正确答案时会自发强化对话式行为[24][30] 对话式行为分析 - 研究识别出四类对话行为：问答行为、视角转换、观点冲突、观点调和[7][8] - 在推理轨迹长度相近的条件下，推理模型（如DeepSeek-R1、QwQ-32B）比指令微调模型展现出显著更高频率的对话式行为[16] - 与DeepSeek-V3相比，DeepSeek-R1在提问-回答、视角切换以及整合与调和方面均显著更频繁[18] - 无论参数规模大小（8B、32B、70B或671B），所有指令微调模型的对话式行为出现频率都始终处于较低水平[21] - 当模型面对更高难度的任务（如研究生水平的科学推理GPQA、高难度数学题）时，对话式行为会更加明显[23] 社会情感角色分析 - 研究基于Bales互动过程分析框架，将话语划分为12种互动角色类型，并归总为四大高阶类别：信息给予、信息征询、积极情感、消极情感[10][11] - 推理模型展现出更具互惠性的社会情绪角色结构：它们既会提出问题、请求指引，也会给予回应，同时表现出负向与正向的情绪角色[21] - 指令微调模型主要以单向方式给出指引、观点和建议，几乎不进行反向提问，也缺乏情绪层面的互动，其推理过程更像是一段独白[22] - 使用Jaccard指数量化发现，推理模型更倾向于以互相协调的方式组织不同角色，而不是将它们孤立地、零散地使用[22] 特征干预与准确率提升 - 通过稀疏自编码器识别出特征30939，其定义为“用于表达惊讶、顿悟或认同的话语标记”，该特征在65.7%的会话中占比，且高度稀疏[14] - 在Countdown游戏任务中，对对话式惊讶特征进行正向引导（+10），会使准确率从27.1%提升至54.8%，几乎翻倍；而负向引导（−10）则会将准确率降低至23.8%[24] - 当引导强度从0增加到+10时，四类对话式行为均显著增强；反之，当引导强度从0降至−10时，这些对话行为会被系统性抑制[25] - 正向引导会诱发模型在推理过程中主动质疑先前的解法，体现出明显的视角切换和观点冲突；负向引导则会生成相对平铺直叙的推理文本，缺乏内部讨论[27] 认知策略与强化学习 - 对话特征通过两条路径提升推理能力：直接帮助模型更有效地探索解空间；通过脚手架式地支持验证、回溯和子目标分解等认知策略，推动系统性的问题求解过程[29] - 自教式强化学习实验显示，当只奖励正确答案时，大模型会自发强化对话式行为，表明对话式结构本身能够在强化学习过程中促进推理策略的自发涌现与加速形成[30]