Workflow
梯度下降
icon
搜索文档
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路
量子位· 2025-06-10 12:05
RaML框架核心观点 - 大语言模型(LLM)的推理过程可类比为梯度下降优化过程,推理轨迹中的每个令牌对应参数的一次隐式更新[2] - 研究团队通过理论推导证明Transformer模型中增加的推理轨迹令牌会内化为对模型参数的更新[2] - 实证验证显示随着推理轨迹解码,模型对正确答案的置信度逐步上升,证实推理轨迹作为参数更新的合理性[4] 元学习视角下的LLM推理 - 将LLM推理训练置于元学习框架下解释,每个具体问题视为独立任务[7] - 推理轨迹承担"内循环优化"角色,动态调整内部参数适应特定任务[8] - 外循环优化基于内循环结果调整"学习策略",形成双循环机制实现泛化能力[8] - 该框架统一解释LLM在不同训练策略、推理策略和任务泛化上的表现[9] 训练方法对比 - 有监督微调(SFT)模型相比纯强化学习(RL)模型在数学基准上表现更优[10] - SFT提供"最优梯度指导",对较小模型收益显著(Pass@8提升31%,mG-Pass@8提升175%)[13] - RL理论上限更高但需要更强基座模型,可采用SFT+RL混合训练策略[12] 推理轨迹特性 - 更长的推理轨迹对应更好的内循环优化效果,与传统优化算法迭代次数原理类似[14] - "反思"令牌能显著改变模型置信度,帮助跳出局部最优解[15][17] - 强制结束思考过程的令牌序列可能导致模型停留在次优解[18][20] 跨任务泛化能力 - 仅在数学推理训练即可提升科学推理和代码推理任务表现[21] - 模型学习到普适推理特征,通过元学习机制快速适应新任务[23] 实践优化策略 - 增加每个问题的训练轨迹数量(相当于扩大元学习支撑集)可提升推理表现[25] - 对长推理轨迹进行摘要提炼,在保持性能同时显著降低解码开销[30] - 未来可探索更高效的推理轨迹提取方法及任务配比优化[31] 研究价值 - 为理解大模型推理提供全新视角,揭示其与元学习、梯度下降的关联[32] - 理论框架具有实践指导意义,已开源代码和论文供进一步研究[32]
【广发金工】AlphaForge:基于梯度下降的因子挖掘
公式化因子挖掘与AlphaForge框架 - 神经网络模型能有效预测股票截面收益率差异,构造更多公式化特征可丰富模型输入[1] - 传统方法如遗传规划和OpenFE存在优化方向随机、过拟合等问题[3][9] - AlphaForge通过生成器和预测器设计实现梯度下降优化,解决传统方法缺陷[10][13][14] AlphaForge技术架构 - 生成器采用DCGAN网络和Masker结构,保证连续可导实现梯度传播[23][26][28] - 预测器使用卷积结构学习因子表达式与IC得分的对应关系[29] - 损失函数设计包含因子得分和多样性惩罚项[15] 因子挖掘效果 - 100个样本外因子IC均值4.24%,最高7.10%,最低2.29%,中位数4.34%[38][39] - 因子间截面相关性均值9.31%,时序相关性均值18.57%[43][44] - 因子表达式长度多在2-20之间,可解释性一般但有效性突出[46][47] 因子合成表现 - LGBM和等权合成因子IC均值分别为11.68%和13.29%,相关性54.23%[53] - 进一步合成后IC均值提升至13.85%,年化超额17.33%,回撤-5.41%[53] - 在沪深300、中证500、中证1000股票池中均表现稳定[58][60][64] 指数增强策略 - 沪深300指增年化超额9.28%,回撤-7.25%,信息比率1.90[74] - 中证500指增年化超额10.98%,回撤-10.65%[76][77] - 中证1000指增表现最优,年化超额14.28%,回撤-10.96%,信息比率2.27[79][80] 框架优势总结 - 相比传统方法实现梯度下降优化,避免随机生成缺陷[82] - 生成器-预测器结构保证因子生成的连续性和有效性[82] - 滚动训练验证显示框架在不同市场环境下的稳定性[33][82]