Workflow
长文本推理
icon
搜索文档
QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5
机器之心· 2025-12-29 12:44
文章核心观点 - 通义文档智能团队推出QwenLong-L1.5模型,旨在系统性解决大模型在长文本深度推理中面临的挑战,其核心是提供了一套完整的“数据合成 + RL优化 + 记忆管理”三位一体的后训练框架[4][5][8] 长文本推理面临的行业挑战 - 模型在“大海捞针”测试中表现良好,但在需要串联分散证据、整合全局信息的多跳推理任务中表现急转直下,暴露深度理解短板[2] - 长文本、多任务的训练数据多源多域,导致标准强化学习算法因数据分布剧烈变化而产生偏差,训练过程不稳定甚至崩溃[2] - 即使上下文窗口扩展到256K或1M,面对分析代码仓库、研读完整财报等“超框”任务时,信息量仍易突破上限,导致关键全局信息丢失和端到端推理能力降级[3] QwenLong-L1.5的技术解决方案 - **高质量数据合成流水线**:通过“先拆解,后组合”思想,打造由知识图谱引导、跨文档表格引擎、多智能体自我进化三大引擎驱动的流水线,程序化生成需要多跳溯源和全局推理的难题[9][12][13] - **稳定高效的RL优化策略**:针对数据分布异构性,采用任务均衡采样和任务专属优势估计双重策略,保证批次内数据分布均衡并提供稳定的优势信号[14][16] - **自适应熵控制策略优化**:提出AEPO算法,基于模型自身不确定性动态屏蔽或施加梯度,平衡探索与利用,解决长文本RL中的信用分配难题和训练不稳定性[17][18][19][20] - **突破极限的记忆管理框架**:为模型设计可无限扩展的“智能笔记本”,通过迭代式记忆更新和多阶段融合RL训练,将外部记忆能力与窗口内推理能力无缝融合,突破物理窗口束缚[21] 模型性能表现 - **整体性能飞跃**:相比基线模型Qwen3-30B-A3B-Thinking-2507,QwenLong-L1.5在多个权威长文本推理基准上的平均分暴涨9.9分[24][26] - **比肩顶级旗舰**:该30B-A3B模型在多项基准上的表现与GPT-5、Gemini-2.5-Pro等顶级闭源模型相媲美[24][26] - **精准能力跃升**:在考验深度推理的复杂任务上提升显著,例如在MRCR基准上性能增长+31.72,在CorpusQA上增长+9.69,在LongBench-V2上增长+6.16[24][26] - **通用能力提升**:经过长文本强化训练后,模型在通用能力上未出现“偏科”,反而在MMLU-PRO、AIME25、GPQA-Diamond等基准上获得提升,长对话记忆能力(LongMemEval)大幅增强+15.60[27] - **超长文本处理能力**:借助记忆管理框架,模型在处理1M至4M Token的超长任务时展现卓越性能,在MRCR和CorpusQA等极限挑战中性能远超同类智能体方法[29][31]
面壁小钢炮4.0发布:性能比肩 Qwen-3-8B,极限220倍提速
新浪科技· 2025-06-10 17:37
模型性能与架构创新 - 面壁智能发布第四代"面壁小钢炮"MiniCPM4 0端侧模型 包含8B和0 5B两种参数规模 实现同级最佳性能 [2] - MiniCPM4 0-8B模型在MMLU CEval MATH500 HumanEval等基准测试中以22%训练开销达到Qwen-3-8B性能 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B以2 7%训练开销实现Qwen-3-0 6B和Llama3 2两倍性能 推理速度达600Token/s [2] - 采用InfLLMv2稀疏注意力架构 将行业普遍40%-50%稀疏度降至5% 注意力层计算量减少90% [4] 速度与效率突破 - 相比Qwen-3-8B Llama-3-8B等同参数模型 实现长文本推理5倍常规加速及220倍极限加速 [3] - 在128K长文本场景下 缓存存储空间仅为Qwen3-8B的25% [4] - 通过优化Transformer架构内存问题 显著降低长序列数据处理的内存占用 [3] 应用与市场表现 - 基于8B版本开发出MCP Client和MiniCPM4-Surve两款特定能力模型 后者可媲美Deep Research工具 [5] - MiniCPM系列全平台累计下载量突破1000万次 [5] 技术差异化 - InfLLMv2架构解决NSA方案在短文本推理慢的短板 同时提升文本相关性精准度 [4] - 联合创始人刘知远强调加速成果源于模型架构 数据治理 软硬件结合的全栈创新 [3]