Workflow
刚刚,字节开源Seed-OSS-36B模型,512k上下文
机器之心·2025-08-21 09:03

模型发布与开源 - 字节跳动Seed团队正式发布并开源Seed-OSS系列模型 包含三个版本:Seed-OSS-36B-Base(含合成数据)、Seed-OSS-36B-Base(不含合成数据)和Seed-OSS-36B-Instruct(指令微调版)[1] - 模型使用Apache-2.0许可证发布 允许研究人员和企业开发者自由使用、修改和再分发[2] 模型架构与参数 - 模型采用360亿参数 分布在64层网络中 支持15.5万词表[5] - 架构结合因果语言建模、分组查询注意力(GQA)、SwiGLU激活函数、RMSNorm和RoPE位置编码[4] - 隐藏层大小为5120 注意力头配置为80/8/8 头大小为128[9] 长上下文处理能力 - 原生支持最大512K tokens上下文长度 相当于1600页文本 是OpenAI GPT-5系列的两倍[6][7] - 在RULER(128K上下文长度)测试中达到94.6分 创开源模型最高分[18][20] 推理预算控制 - 引入推理预算机制 允许用户指定模型执行推理的token数量[10] - 推荐预算值为512 tokens的整数倍(如512、1K、2K等) 0表示直接输出答案模式[13][26][27] - 复杂任务(如AIME和LiveCodeBench)性能随预算增加提升 简单任务(如IFEval)则出现波动[22][23] 基准测试表现 - Base含合成数据版本在MMLU-Pro得分65.1 MATH得分81.7[15] - Instruct版本在AIME24取得91.7% BeyondAIME得分65 LiveCodeBench v6得分67.4 均创开源SOTA纪录[17][19] - 在TAU1-Retail智能体任务中取得70.4分 SWE-Bench Verified(OpenHands)达56分[20] 训练数据与研究支持 - 使用12万亿tokens进行训练[1] - 同时发布含与不含指令数据的预训练模型 为研究社区提供多样化选择[8]