ProRL 方法 - 财报，业绩电话会，研报，新闻

ProRL 方法

搜索文档

中邮证券· 2025-06-09 19:39

根据提供的研报内容，以下是关于量化模型与因子的详细总结：量化模型与构建方式 1. **模型名称：Gemini 2.5 Pro** - **模型构建思路**：通过多模态架构优化编程、推理及多模态能力，提升AI工具的实用性和效率[12] - **模型具体构建过程**： 1. **编程能力优化**：在LMArena编码测试中提升24分至1470分，支持单条提示生成完整交互式Web应用（如YouTube视频转学习应用）[12] 2. **推理能力增强**：在GPQA科学问答测试中达到86.4%准确率，无需多数投票策略[12] 3. **多模态处理**：支持百万级Token上下文窗口，解析1小时视频或11小时音频，VideoMME基准得分84.8%[12] 4. 引入"思考预算"功能，动态调节Token消耗量平衡质量与成本[13] - **模型评价**：在编程和推理任务中显著领先竞品，但多模态细节处理仍有优化空间[16] 2. **模型名称：Qwen3-Embedding & Reranker** - **模型构建思路**：基于双塔结构和指令感知设计，提升文本表征与排序技术的多场景适应性[17][18] - **模型具体构建过程**： 1. **Embedding模型**： - 采用双塔结构，提取[EOS]标记隐藏状态作为语义向量，支持动态输出维度（768/1024/4096）[18] - 三阶段训练：弱监督对比学习预训练（1.5亿文本对）→监督微调（改进InfoNCE损失）→球面线性插值融合检查点[19][20] 2. **Reranker模型**： - 单塔交互结构，通过二元分类模板计算相关性得分，结合RoPE位置编码与双块注意力机制[18] - **模型评价**：在MTEB多语言基准测试中超越商业模型，轻量版显存需求仅1.5GB[21] 3. **模型名称：Fast-dLLM** - **模型构建思路**：通过分块KV缓存和置信度感知并行解码，加速扩散式大语言模型推理[23][24] - **模型具体构建过程**： 1. **分块KV缓存**：将序列划分为块并缓存双向注意力激活值，实现90%以上激活值复用[24][26] 2. **并行解码**：动态筛选高置信度标记（概率≥0.9）并行处理，数学保证生成一致性（公式：$(n+1)\epsilon \leq 1$）[26] - **模型评价**：实现27.6倍加速且质量损失<2%，但需进一步验证千亿参数级扩展性[27][30] 4. **模型名称：KwaiCoder-AutoThink** - **模型构建思路**：通过双模思考机制和Step-SRPO强化学习，动态切换问题解决深度[31][32] - **模型具体构建过程**： 1. **训练范式**： - 阶段1：Ellipsis Prompt技术引导快慢思维路径分化 - 阶段2：异构离线蒸馏（DeepSeek-V3/R1作为教师模型） - 阶段3：Step-SRPO强化学习（过程监督优化优势函数）[32] 2. **动态上下文窗口**：支持16K-32K自适应调整，减少17%冗余计算[36] - **模型评价**：在非推理任务中实现3-5倍加速，但80GB体积部署成本较高[36] 5. **模型名称：ProRL** - **模型构建思路**：通过延长训练周期和改进GRPO算法，解锁大语言模型新推理策略[43][44] - **模型具体构建过程**： 1. **训练架构**： - 动态KL散度控制（每500步重置参考策略） - 高温采样（温度系数1.2）结合DAPO动态采样[44] 2. **任务覆盖**：13.6万跨领域样本（数学/编程/STEM等）[44] - **模型评价**：在逻辑推理任务中提升54.8%，但需1.6万GPU小时训练投入[47][48] --- 模型的回测效果 1. **Gemini 2.5 Pro** - TextArena评分：1470分（提升24分）[12] - WebDevArena评分：1443分（提升35分）[12] - GPQA准确率：86.4%[12] - VideoMME得分：84.8%[12] 2. **Qwen3-Embedding** - MTEB多语言平均得分：70.58（8B版本）[22] - 代码检索nDCG@10：80.68[22] - 中文检索得分：77.45[22] 3. **Fast-dLLM** - GSM8K加速比：27.6倍[27] - 质量损失：<2%[27] - HumanEval加速：3.7倍[27] 4. **KwaiCoder-AutoThink** - MBPP代码生成得分：95.6[36] - AIME数学竞赛得分：78.8[36] - GPQA专业问答得分：71.7[36] 5. **ProRL** - GPQA Diamond准确率提升：25.9%[44] - 逻辑谜题解决能力提升：54.8%[44] --- 技术补充 - **世界模型理论**：DeepMind研究证明智能体需隐含世界模型以实现长期目标规划，误差上界为$\sqrt{2p(1-p)/(n(1-\delta))}$（$p$为转移概率，$n$为目标深度）[56] - **ChatGPT优化**：Karpathy建议按任务类型选择模型（如GPT-4o处理简单问题，o3处理复杂推理），可提升2倍效用[49][50]

人工智能

大语言模型

人工智能

KwaiCoder-AutoThink-preview 模型

KwaiCoder-AutoThink-preview 模型

ProRL 方法

Gemini 2.5 Pro