课程引导的分阶段强化学习

搜索文档
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜
量子位· 2025-05-27 13:58
阿里开源长文本深度思考模型QwenLong-L1 - 阿里开源长文本深度思考模型QwenLong-L1登上HuggingFace今日热门论文第二 [1] - QwenLong-L1的32B参数版本性能与Claude-3.7-Sonnet-Thinking相当,超过OpenAI-o3-mini和Qwen3-235B-A22B [3] - 该模型在金融文档推理案例中通过回溯和验证机制有效过滤干扰信息,正确整合关键数据 [4] 模型性能对比 - QwenLong-L1-14B相比基础模型R1-Distill-Qwen-14B在七个长文本基准测试中平均提升4.1分,超越Gemini-2.0-Flash-Thinking和Qwen3-32B [25] - QwenLong-L1-32B版本平均分达70.7,超过OpenAI-o3-mini(70.4分)和Qwen3-235B-A22B(70.6分),与Claude-3.7-Sonnet-Thinking(70.7分)持平 [25] 训练方法与技术突破 - 传统强化学习方法在长文本训练中存在效率低和优化过程不稳定的问题 [16] - QwenLong-L1采用渐进式上下文扩展训练框架,分为预热监督微调和课程引导的分阶段强化学习两阶段 [18][20] - 团队从DeepSeek-R1蒸馏5.3K个高质量问题-文档-答案三元组进行监督微调,为强化学习提供稳定起点 [18] - 强化学习阶段从短文本逐步过渡到长文本(2万token→6万token→128K),并引入难度感知的回溯采样机制 [20] 奖励函数设计 - 采用混合奖励函数结合规则验证和LLM-as-a-Judge,避免单一规则过于严格或宽松 [21][22] - 规则验证检查答案与标准答案一致性,LLM判断语义正确性,两者结合提升准确性 [23][24] 训练效果分析 - 长文本SFT带来2.6分提升,但在其基础上做RL仅提升0.3分;短文本SFT基础上做RL可提升3.2分 [28] - SFT提供经济的性能提升方式,而RL是达到最优性能的必要手段 [29] - 强化学习能有效调整输出空间,优先保留有助于准确解答的推理模式 [32]