Workflow
Qwen3 Coder
icon
搜索文档
金工周报-20250729
中邮证券· 2025-07-29 15:29
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称**:OpenReasoning-Nemotron推理模型 **模型构建思路**:基于Qwen2.5架构,通过从6710亿参数的DeepSeek R1 0528模型中蒸馏提炼而成,旨在为数学、科学及代码生成等结构化任务提供高效推理支持[12] **模型具体构建过程**: - 利用NeMo Skills框架生成500万个涵盖数学证明、科学推导和编程解决方案的高质量数据轨迹 - 通过纯监督微调(SFT)而非强化学习进行训练,确保逻辑一致性和符号推理精准度 - 采用GenSelect算法实现"重型推理模式",通过并行启动多个智能体生成候选解并筛选最优答案 - 公式:GenSelect@64技术,在32B模型上将HMMT数学竞赛成绩从73.8提升至96.7[13] **模型评价**:在GPQA、MMLU-PRO和AIME24等基准测试中刷新同参数规模纪录,32B版本在AIME24获得89.2分,超越OpenAI的o3-high模型[15] 2. **模型名称**:Qwen3-Coder **模型构建思路**:以4800亿参数规模、原生支持256K上下文窗口的混合专家架构(MoE)为核心,实现开源编程模型的性能突破[19] **模型具体构建过程**: - 采用稀疏化MoE设计,总参数4800亿但每次推理仅激活350亿参数,包含160个专家网络并动态选择8个参与计算 - 使用7.5万亿token的语料库,其中70%为代码数据,覆盖80余种编程语言及20多种标记语言 - 通过Qwen2.5-Coder对低质量数据清洗改写,生成高质量合成数据 - 引入代码强化学习与长程强化学习,构建分布式系统并行运行2万个独立环境[19] **模型评价**:HumanEval pass@1正确率达93.7%,超越Claude 3.5的92.4%;在SWE-Bench Verified上以31.4%任务成功率首次超过GPT-4的30.9%[20] 3. **模型名称**:AI评审框架 **模型构建思路**:通过赋予AI评审员自主调用外部工具的能力,构建兼具效率与严谨性的混合评审体系[25] **模型具体构建过程**: - 采用三级决策机制:初始领域评估、工具调用环节(事实核查/代码执行/数学核查)、综合评审结论生成 - 工具优先策略,仅在无适用工具时回退至基线模型评审 - 模块化设计实现领域适配,数学核查工具可灵活替换为Wolfram Alpha等专业引擎[26] **模型评价**:将数学问题评审错误率从纯模型评估的28%降至6%,代码评审误判率下降逾40%[29] 模型的回测效果 1. **OpenReasoning-Nemotron模型** - AIME24得分:32B版本89.2分,7B模型78.2分,1.5B模型45.6分[15] - LiveCodeBench得分:从70.2提升至75.3[13] - HMMT数学竞赛成绩:GenSelect@64技术下从73.8提升至96.7[13] 2. **Qwen3-Coder模型** - HumanEval pass@1正确率:93.7%[20] - SWE-Bench Verified任务成功率:31.4%[20] - 上下文处理能力:原生256K扩展至1M token[20] 3. **AI评审框架** - 数学问题评审错误率:从28%降至6%[29] - 代码评审误判率:下降逾40%[29] - MMLU基准测试指标一致性:提升约15%[29] 量化因子与构建方式 (注:研报中未明确提及量化因子的构建内容,故本部分暂缺) 因子的回测效果 (注:研报中未提及量化因子的测试结果,故本部分暂缺) 以上总结严格基于研报中涉及的量化模型相关内容,未包含风险提示、免责声明等非核心信息。模型构建细节引用自原文技术描述部分,测试结果数据均来自基准测试报告[12][13][15][19][20][25][26][29]