Workflow
双模式架构
icon
搜索文档
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
量子位· 2025-05-14 12:57
模型架构创新 - Qwen3系列包含6个密集模型(0.6B/1.7B/4B/8B/14B/32B)和2个MoE模型(30B/235B),其中MoE模型的激活参数量分别为3B和22B [5] - 密集模型移除Qwen2的QKV偏置并引入QK-Norm机制提升训练稳定性 [6] - MoE模型取消共享专家设计,采用全批次负载均衡损失促进专家专业化 [8] - 采用双模式架构实现思考/非思考模式自动切换,支持不同复杂度任务处理 [7][10] 训练方法论 - 预训练分三阶段:基础语言能力(4096 token)、推理能力(STEM领域数据)、长文本处理(32768 token) [15][16][17][18][19][20] - 后训练分四阶段:长思维链冷启动(数学/编程标注数据)、推理强化学习(3995个筛选问题)、思维模式融合(SFT混合数据)、通用强化学习(20+任务场景) [23][24][25][27][28][31][32][34][35] - 采用"大带小"蒸馏策略:Off-policy阶段用235B/32B教师模型生成监督信号,On-policy阶段通过输出分布比对动态优化 [37][40][41][42][43][44][47][48] 核心技术突破 - 引入thinking budget概念,根据问题复杂度动态分配计算资源 [11][12][13] - 通过特殊标记(<think>/</think>)实现模式切换,非思考模式响应速度提升 [14] - MoE模型Qwen3-30B含48层/32Q头/4KV头/128专家(激活8个),Qwen3-235B含94层/64Q头/4KV头 [10] 产品化应用 - Qwen Chat上线深度研究功能,8分半可生成带表格的行业研究报告(如医疗保健数字化趋势分析) [49][50] - 提供技术报告和在线体验平台(Github报告地址及Chat演示链接) [51]