模型发布与性能 - 字节Seed首次开源代码模型Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA [1] - Seed-Coder包含三个版本:Base、Instruct、Reasoning [6] - Seed-Coder-8B-Instruct在SWE-bench Verified测试中得分19.2,超越Qwen3-8B的14.6 [7] - 推理版本在IOI 2024上超越了QwQ-32B和DeepSeek-R1 [7] - 模型上下文长度32K,使用6T tokens训练,采用MIT开源协议 [10] 模型架构与训练 - Seed-Coder采用Llama 3结构,参数量8.2B,6层,隐藏层大小4096,使用分组查询注意力(GQA)机制 [11] - 预训练分为两个阶段:常规预训练使用文件级代码和网络数据,持续预训练使用全部四类数据 [34][35] - 采用Fill-in-the-Middle(FIM)和Suffix-Prefix-Middle(SPM)训练增强上下文感知能力 [35] - 指令模型通过监督微调(SFT)和直接偏好优化(DPO)两阶段训练 [46] - 推理模型采用长链条思维(LongCoT)强化学习训练 [46] 数据处理方法 - 提出"模型中心"数据处理方式,使用模型策划数据 [12] - 从GitHub和网络档案爬取原始代码数据,经过多步处理输出预训练数据 [13] - 数据过滤分为四个类别:文件级代码、仓库级代码、Commit数据、代码相关网络数据 [22] - 预处理阶段减少约98%原始数据量 [16] - 使用22万+份代码文档训练的评分模型过滤低质量代码文件 [17] - 最终得到支持89种编程语言、约1万亿独特token的语料库 [19] 数据来源与处理 - 从14万个高质量GitHub仓库收集7400万次提交记录 [21] - 提交数据预处理后获得约1000亿token语料库 [25] - 网络数据处理框架识别两类数据:明确代码标签网页和潜在代码内容网页 [27] - 使用fastText模型自动识别代码相关内容 [29] - 最终构建约1.2万亿tokens的网络数据语料库 [33] 评分标准与优化 - 代码质量评分标准包含可读性、模块性、清晰度、可重用性四个方面 [23] - 评分模型以DeepSeek-V2-Chat为基础,评分0-10分 [18] - 发现不同类型网站存在评分偏差,优化后按网站类型制定专门评分标准 [31] 公司其他动态 - 发布视频生成模型Seaweed,70亿参数支持1280x720分辨率 [39] - 发布深度思考模型Seed-Thinking-v1.5,在数学、代码等推理任务超越DeepSeek-R1 [40] - 与清华合作推出电脑操作智能体UI-TARS,GitHub星标超5.8k [42][43] - 推出Multi-SWE-bench多语言编程基准,覆盖7种编程语言 [44] - 内部调整LLM团队结构,设立"Seed Edge"长期AGI前沿研究项目 [44]
字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式
量子位·2025-05-11 12:20