Workflow
有监督微调
icon
搜索文档
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路
量子位· 2025-06-10 12:05
RaML框架核心观点 - 大语言模型(LLM)的推理过程可类比为梯度下降优化过程,推理轨迹中的每个令牌对应参数的一次隐式更新[2] - 研究团队通过理论推导证明Transformer模型中增加的推理轨迹令牌会内化为对模型参数的更新[2] - 实证验证显示随着推理轨迹解码,模型对正确答案的置信度逐步上升,证实推理轨迹作为参数更新的合理性[4] 元学习视角下的LLM推理 - 将LLM推理训练置于元学习框架下解释,每个具体问题视为独立任务[7] - 推理轨迹承担"内循环优化"角色,动态调整内部参数适应特定任务[8] - 外循环优化基于内循环结果调整"学习策略",形成双循环机制实现泛化能力[8] - 该框架统一解释LLM在不同训练策略、推理策略和任务泛化上的表现[9] 训练方法对比 - 有监督微调(SFT)模型相比纯强化学习(RL)模型在数学基准上表现更优[10] - SFT提供"最优梯度指导",对较小模型收益显著(Pass@8提升31%,mG-Pass@8提升175%)[13] - RL理论上限更高但需要更强基座模型,可采用SFT+RL混合训练策略[12] 推理轨迹特性 - 更长的推理轨迹对应更好的内循环优化效果,与传统优化算法迭代次数原理类似[14] - "反思"令牌能显著改变模型置信度,帮助跳出局部最优解[15][17] - 强制结束思考过程的令牌序列可能导致模型停留在次优解[18][20] 跨任务泛化能力 - 仅在数学推理训练即可提升科学推理和代码推理任务表现[21] - 模型学习到普适推理特征,通过元学习机制快速适应新任务[23] 实践优化策略 - 增加每个问题的训练轨迹数量(相当于扩大元学习支撑集)可提升推理表现[25] - 对长推理轨迹进行摘要提炼,在保持性能同时显著降低解码开销[30] - 未来可探索更高效的推理轨迹提取方法及任务配比优化[31] 研究价值 - 为理解大模型推理提供全新视角,揭示其与元学习、梯度下降的关联[32] - 理论框架具有实践指导意义,已开源代码和论文供进一步研究[32]
喝点VC|a16z关于DeepSeek的内部复盘:推理模型革新与20倍算力挑战下的AI模型新格局
Z Potentials· 2025-03-23 13:10
图片来源: a16z Z Highlights 在这段访谈中 a16z 合伙人 Guido Appenzeller 和 Marco Mascorro 一同揭开了 DeepSeek 的工作原理,并解释了推理模型时代对人工智能的意义。 开源透明,点燃推理革命 Guido Appenzeller: 大家好,今天我们将深入探讨 DeepSeek ,这个来自中国的全新高性能推理模型。 DeepSeek 在上个月引起了广泛关注,它在排行榜上 名列前茅,但也引发了一些担忧和困惑。 Marco Mascorro: 是的,这不太理想。 Guido Appenzeller: DeepSeek 的优点在于,他们开源了模型权重、技术细节以及构建这些模型的方法。这为我们理解推理模型的工作原理提供了宝贵的观 点,而且展望未来,几乎所有最先进的模型都将采用其中的一些技术。我们已经从 OpenAI 和 Google 的模型中看到了类似的结构,这对我们所需的计算 量、推理和训练所需的 GPU 算力都有着重大影响。这是我们对 DeepSeek 的分析,包括他们一直在构建的一些模型,如 DeepSeek Math, V3 和 V2 ,以及 现在的 ...