QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5
机器之心·2025-12-29 12:44

文章核心观点 - 通义文档智能团队推出QwenLong-L1.5模型,旨在系统性解决大模型在长文本深度推理中面临的挑战,其核心是提供了一套完整的“数据合成 + RL优化 + 记忆管理”三位一体的后训练框架[4][5][8] 长文本推理面临的行业挑战 - 模型在“大海捞针”测试中表现良好,但在需要串联分散证据、整合全局信息的多跳推理任务中表现急转直下,暴露深度理解短板[2] - 长文本、多任务的训练数据多源多域,导致标准强化学习算法因数据分布剧烈变化而产生偏差,训练过程不稳定甚至崩溃[2] - 即使上下文窗口扩展到256K或1M,面对分析代码仓库、研读完整财报等“超框”任务时,信息量仍易突破上限,导致关键全局信息丢失和端到端推理能力降级[3] QwenLong-L1.5的技术解决方案 - 高质量数据合成流水线:通过“先拆解,后组合”思想,打造由知识图谱引导、跨文档表格引擎、多智能体自我进化三大引擎驱动的流水线,程序化生成需要多跳溯源和全局推理的难题[9][12][13] - 稳定高效的RL优化策略:针对数据分布异构性,采用任务均衡采样和任务专属优势估计双重策略,保证批次内数据分布均衡并提供稳定的优势信号[14][16] - 自适应熵控制策略优化:提出AEPO算法,基于模型自身不确定性动态屏蔽或施加梯度,平衡探索与利用,解决长文本RL中的信用分配难题和训练不稳定性[17][18][19][20] - 突破极限的记忆管理框架:为模型设计可无限扩展的“智能笔记本”,通过迭代式记忆更新和多阶段融合RL训练,将外部记忆能力与窗口内推理能力无缝融合,突破物理窗口束缚[21] 模型性能表现 - 整体性能飞跃:相比基线模型Qwen3-30B-A3B-Thinking-2507,QwenLong-L1.5在多个权威长文本推理基准上的平均分暴涨9.9分[24][26] - 比肩顶级旗舰:该30B-A3B模型在多项基准上的表现与GPT-5、Gemini-2.5-Pro等顶级闭源模型相媲美[24][26] - 精准能力跃升:在考验深度推理的复杂任务上提升显著,例如在MRCR基准上性能增长+31.72,在CorpusQA上增长+9.69,在LongBench-V2上增长+6.16[24][26] - 通用能力提升:经过长文本强化训练后,模型在通用能力上未出现“偏科”,反而在MMLU-PRO、AIME25、GPQA-Diamond等基准上获得提升,长对话记忆能力(LongMemEval)大幅增强+15.60[27] - 超长文本处理能力:借助记忆管理框架,模型在处理1M至4M Token的超长任务时展现卓越性能,在MRCR和CorpusQA等极限挑战中性能远超同类智能体方法[29][31]