模型性能表现 - 在AIME 2024数学竞赛基准测试中获得86.7分,与OpenAI o3-mini-high持平,显著超越DeepSeek R1的79.8分 [1][5][47] - Codeforces编程测试中pass@8指标达55.0分,接近Gemini 2.5 Pro的56.3分,但落后于OpenAI o3-mini-high的67.5分 [1][5][47] - GPQA科学推理测试获得77.3分,接近o3-mini-high的79.7分 [1][5][47] - 在非推理任务的人类评估中,整体胜率较DeepSeek R1高出8.0% [1][5][51] 模型架构特性 - 采用混合专家模型(MoE)架构,激活参数200亿,总参数2000亿,属于相对紧凑的推理模型 [1][5] - 基于链式思维(CoT)数据进行监督微调,过多非CoT数据会降低模型探索能力 [1][10] - 强化学习训练数据包含STEM问题、代码任务、逻辑推理和非推理数据四类,其中数学数据展现强泛化能力 [1][10][15] 技术创新突破 - 开发VAPO和DAPO框架分别针对演员-评论家及策略梯度范式,解决RL训练不稳定性问题 [1][11][38] - 设计Streaming Rollout System(SRS)缓解长响应生成滞后问题,结合混合精度调度和三层次并行架构提升训练效率 [2][42][43] - 推出Seed-Thinking-Verifier验证器,在人工标注测试集上准确率达99.3%,显著优于Seed-Verifier的82.7% [28][30][31] 基准测试体系 - 构建BeyondAIME高级数学基准,包含100道难度不低于AIME最高水平的原创题目,模型在该基准表现48.0%,落后于o3-mini-high的63.6% [11][25][47] - Codeforces评估采用最近12场竞赛题目,报告pass@1和pass@8指标,更贴合实际用户提交模式 [11][47] - 内部代码沙箱环境实现离线评估与官方平台判决结果强相关性 [20][21] 训练方法论 - 监督微调使用40万训练实例(30万可验证问题+10万非可验证问题),采用32,000令牌长度截断和余弦学习率衰减策略 [34][36] - 强化学习融合可验证数据(验证器评分)、通用数据(奖励模型评分)和混合数据三类来源,通过在线数据分布适配技术减少域间干扰 [37][39] - 采用动态采样、长度自适应GAE和Token级损失等技术创新保障训练稳定性 [40] 资源优化方案 - 混合分布式训练框架整合张量并行(TP)、专家并行(EP)和上下文并行(CP),结合FSDP实现内存优化 [43][46] - 通过层间重计算、激活卸载和优化器卸载技术支持更大微批次训练 [46] - 自动调优系统(AutoTuner)基于性能画像动态选择最优并行配置 [46]
字节跳动:2025年思考模型Seed-Thinking-v1.5技术报告
搜狐财经·2025-08-22 17:20