ProRL 方法

搜索文档
AI动态汇总:谷歌更新Gemini2.5Pro,阿里开源Qwen3新模型
中邮证券· 2025-06-09 19:39
根据提供的研报内容,以下是关于量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:Gemini 2.5 Pro** - **模型构建思路**:通过多模态架构优化编程、推理及多模态能力,提升AI工具的实用性和效率[12] - **模型具体构建过程**: 1. **编程能力优化**:在LMArena编码测试中提升24分至1470分,支持单条提示生成完整交互式Web应用(如YouTube视频转学习应用)[12] 2. **推理能力增强**:在GPQA科学问答测试中达到86.4%准确率,无需多数投票策略[12] 3. **多模态处理**:支持百万级Token上下文窗口,解析1小时视频或11小时音频,VideoMME基准得分84.8%[12] 4. 引入"思考预算"功能,动态调节Token消耗量平衡质量与成本[13] - **模型评价**:在编程和推理任务中显著领先竞品,但多模态细节处理仍有优化空间[16] 2. **模型名称:Qwen3-Embedding & Reranker** - **模型构建思路**:基于双塔结构和指令感知设计,提升文本表征与排序技术的多场景适应性[17][18] - **模型具体构建过程**: 1. **Embedding模型**: - 采用双塔结构,提取[EOS]标记隐藏状态作为语义向量,支持动态输出维度(768/1024/4096)[18] - 三阶段训练:弱监督对比学习预训练(1.5亿文本对)→监督微调(改进InfoNCE损失)→球面线性插值融合检查点[19][20] 2. **Reranker模型**: - 单塔交互结构,通过二元分类模板计算相关性得分,结合RoPE位置编码与双块注意力机制[18] - **模型评价**:在MTEB多语言基准测试中超越商业模型,轻量版显存需求仅1.5GB[21] 3. **模型名称:Fast-dLLM** - **模型构建思路**:通过分块KV缓存和置信度感知并行解码,加速扩散式大语言模型推理[23][24] - **模型具体构建过程**: 1. **分块KV缓存**:将序列划分为块并缓存双向注意力激活值,实现90%以上激活值复用[24][26] 2. **并行解码**:动态筛选高置信度标记(概率≥0.9)并行处理,数学保证生成一致性(公式:$(n+1)\epsilon \leq 1$)[26] - **模型评价**:实现27.6倍加速且质量损失<2%,但需进一步验证千亿参数级扩展性[27][30] 4. **模型名称:KwaiCoder-AutoThink** - **模型构建思路**:通过双模思考机制和Step-SRPO强化学习,动态切换问题解决深度[31][32] - **模型具体构建过程**: 1. **训练范式**: - 阶段1:Ellipsis Prompt技术引导快慢思维路径分化 - 阶段2:异构离线蒸馏(DeepSeek-V3/R1作为教师模型) - 阶段3:Step-SRPO强化学习(过程监督优化优势函数)[32] 2. **动态上下文窗口**:支持16K-32K自适应调整,减少17%冗余计算[36] - **模型评价**:在非推理任务中实现3-5倍加速,但80GB体积部署成本较高[36] 5. **模型名称:ProRL** - **模型构建思路**:通过延长训练周期和改进GRPO算法,解锁大语言模型新推理策略[43][44] - **模型具体构建过程**: 1. **训练架构**: - 动态KL散度控制(每500步重置参考策略) - 高温采样(温度系数1.2)结合DAPO动态采样[44] 2. **任务覆盖**:13.6万跨领域样本(数学/编程/STEM等)[44] - **模型评价**:在逻辑推理任务中提升54.8%,但需1.6万GPU小时训练投入[47][48] --- 模型的回测效果 1. **Gemini 2.5 Pro** - TextArena评分:1470分(提升24分)[12] - WebDevArena评分:1443分(提升35分)[12] - GPQA准确率:86.4%[12] - VideoMME得分:84.8%[12] 2. **Qwen3-Embedding** - MTEB多语言平均得分:70.58(8B版本)[22] - 代码检索nDCG@10:80.68[22] - 中文检索得分:77.45[22] 3. **Fast-dLLM** - GSM8K加速比:27.6倍[27] - 质量损失:<2%[27] - HumanEval加速:3.7倍[27] 4. **KwaiCoder-AutoThink** - MBPP代码生成得分:95.6[36] - AIME数学竞赛得分:78.8[36] - GPQA专业问答得分:71.7[36] 5. **ProRL** - GPQA Diamond准确率提升:25.9%[44] - 逻辑谜题解决能力提升:54.8%[44] --- 技术补充 - **世界模型理论**:DeepMind研究证明智能体需隐含世界模型以实现长期目标规划,误差上界为$\sqrt{2p(1-p)/(n(1-\delta))}$($p$为转移概率,$n$为目标深度)[56] - **ChatGPT优化**:Karpathy建议按任务类型选择模型(如GPT-4o处理简单问题,o3处理复杂推理),可提升2倍效用[49][50]