Workflow
基金量化观察:金融文本推理评测:o3-mini能超越DeepSeek-R1吗
国金证券·2025-02-06 15:50
  • 模型名称:DeepSeek-R1-Zero;模型构建思路:通过纯强化学习路径提升大模型的推理能力;模型具体构建过程:DeepSeek 团队直接在基础模型(base model)上应用强化学习,得到了 DeepSeek-R1-Zero 模型。随着强化学习迭代次数的上升,模型性能稳步提升。在测试集 AIME 2024 上,DeepSeek-R1-Zero 的单次准确率(pass@1)从初始的 15.6% 提升至 71.0%,多数投票(cons@64)后达 86.7%[47][49][50];模型评价:模型能够从强化学习过程中获取增量信息,表现出自我演化过程[50] - 模型名称:DeepSeek-R1;模型构建思路:通过带有冷启动的强化学习方式提升模型性能;模型具体构建过程:DeepSeek 团队搭建了一个完整的流程,包括冷启动、推理导向的强化学习、拒绝采样与 SFT 等多种方法。首先通过监督微调帮助模型进入稳定训练状态,然后进行强化学习训练,最后进行拒绝采样和微调[55][56];模型评价:冷启动数据输出内容更适合人类阅读,减少了语言混合与格式混乱问题[55] - 模型名称:DeepSeek-R1-Distill-Qwen;模型构建思路:通过蒸馏提升小模型的推理能力;模型具体构建过程:使用 80 万条思维链数据对 Qwen 和 Llama 等开源小模型进行微调,显著增强小模型的推理能力。蒸馏数据微调后的小模型在推理类任务上表现优于 OpenAI-o1-mini[57][58];模型评价:蒸馏可将大模型的"推理思路"直接转移给小模型,取得远胜于自身独立强化学习的效果[58] - DeepSeek-R1-Zero 模型在 AIME 2024 测试集上的单次准确率(pass@1)从初始的 15.6% 提升至 71.0%,多数投票(cons@64)后达 86.7%[49] - DeepSeek-R1-Distill-Qwen 模型在 AIME 2024 测试集上的 pass@1 为 72.6%,cons@64 为 83.3%[59] - DeepSeek-R1-Distill-Qwen 模型在 MATH-500 测试集上的 pass@1 为 94.3%[59] - DeepSeek-R1-Distill-Qwen 模型在 GPQA 测试集上的 pass@1 为 62.1%[59] - DeepSeek-R1-Distill-Qwen 模型在 Diamond LiveCodeBench 测试集上的 pass@1 为 57.2%[59]