刚刚，字节开源Seed-OSS-36B模型，512k上下文

模型发布与开源 - 字节跳动Seed团队正式发布并开源Seed-OSS系列模型包含三个版本：Seed-OSS-36B-Base（含合成数据）、Seed-OSS-36B-Base（不含合成数据）和Seed-OSS-36B-Instruct（指令微调版）[1] - 模型使用Apache-2.0许可证发布允许研究人员和企业开发者自由使用、修改和再分发[2] 模型架构与参数 - 模型采用360亿参数分布在64层网络中支持15.5万词表[5] - 架构结合因果语言建模、分组查询注意力（GQA）、SwiGLU激活函数、RMSNorm和RoPE位置编码[4] - 隐藏层大小为5120 注意力头配置为80/8/8 头大小为128[9] 长上下文处理能力 - 原生支持最大512K tokens上下文长度相当于1600页文本是OpenAI GPT-5系列的两倍[6][7] - 在RULER（128K上下文长度）测试中达到94.6分创开源模型最高分[18][20] 推理预算控制 - 引入推理预算机制允许用户指定模型执行推理的token数量[10] - 推荐预算值为512 tokens的整数倍（如512、1K、2K等） 0表示直接输出答案模式[13][26][27] - 复杂任务（如AIME和LiveCodeBench）性能随预算增加提升简单任务（如IFEval）则出现波动[22][23] 基准测试表现 - Base含合成数据版本在MMLU-Pro得分65.1 MATH得分81.7[15] - Instruct版本在AIME24取得91.7% BeyondAIME得分65 LiveCodeBench v6得分67.4 均创开源SOTA纪录[17][19] - 在TAU1-Retail智能体任务中取得70.4分 SWE-Bench Verified（OpenHands）达56分[20] 训练数据与研究支持 - 使用12万亿tokens进行训练[1] - 同时发布含与不含指令数据的预训练模型为研究社区提供多样化选择[8]