强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B
长上下文推理强化学习范式 - 核心观点:长上下文推理强化学习需要模型先定位外部关键信息再整合内部推理,区别于短上下文的直接内部知识推理[5] - 关键挑战:训练效率低(奖励收敛慢、输出熵降低限制探索)和优化不稳定(KL散度突刺多、输出长度不均导致方差大)[6] QwenLong-L1框架技术突破 - 渐进式上下文扩展技术:分两阶段强化学习(20K→60K输入长度),结合课程引导分阶段训练、难度感知回顾采样和监督微调预热[11][12][13] - 混合奖励机制:融合规则验证(严格匹配答案格式)与模型评判(Qwen2.5-1.5B评估语义等价性),取最大值平衡精确性与多样性[14][15][16][17] 模型性能表现 - QwenLong-L1-14B:平均Pass@1达68.3,超越Gemini-2.0-Flash-Thinking和Qwen3-32B[21] - QwenLong-L1-32B:平均Pass@1达70.7,超越OpenAI-o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking持平[9][21] - 训练效率:仅需1.6K样本即实现显著提升,32B模型RL后平均性能提升5.1[20] 关键实验发现 - SFT与RL协同效应:SFT低成本达到基础性能,RL对最优结果至关重要;过度SFT会导致局部最优限制RL潜力[28] - 推理模式动态:RL自然提升长上下文相关Grounding等推理模式频率,且频率增长与性能正相关[25][28]