模型发布与架构 - OpenAI开源两款MoE架构模型gpt-oss-120b和gpt-oss-20b 总参数量分别为1170亿和210亿 每个token激活参数分别为51亿和36亿 [1][29] - gpt-oss-120b在H100 GPU上训练耗时210万卡时 20b版本训练用量为其十分之一 [1] - 模型采用MXFP4原生量化 gpt-oss-120b支持单个80GB GPU运行 gpt-oss-20b仅需16GB内存可在边缘设备部署 [1][22] 性能表现 - gpt-oss-120b基准测试表现与o4-mini持平 20b版本与o3-mini相当 [1][31] - 在竞赛编程(Codeforces)、通用问题求解(MMLU和HLE)及工具调用(TauBench)方面优于o3-mini [31] - 健康查询(HealthBench)和竞赛数学(AIME 2024/2025)表现超越o4-mini [33] 技术特性 - 支持128k上下文长度 采用分组多查询注意力模式(组大小8)及旋转位置嵌入(RoPE) [29] - 具备无监督思维链能力 支持开发者自建监控系统 [36] - 与Responses API兼容 支持Agent工作流 含网页搜索 Python代码执行及推理长度调整功能 [8] 部署与适配 - 获14家平台支持包括Azure Hugging Face AWS等 以及英伟达 AMD Cerebras Groq等4家硬件厂商适配 [9][37][42] - Cerebras实现gpt-oss-120b推理速度3000 tokens/秒 Groq达1200 tokens/秒 [9][43][45] - 20b版本在M3 Pro芯片Mac本地部署速度达24 tokens/秒 可开发贪吃蛇游戏 [25] 数据与训练 - 使用英文为主纯文本数据集 重点覆盖STEM 编程及常识领域 [29] - 后训练过程含监督微调(SFT)和强化学习(RL)阶段 与o4-mini流程类似 [29] - 同步开源分词器(tokenizer)但未披露强化学习细节 预训练数据构成及来源 [9][27] 应用体验 - 用户反馈推理速度极快 一般问题思考时间仅5秒 其他模型需18秒 [12][14][16] - 在编程场景展现规划能力 可生成代码结构预览及关键技术点 [16][18] - 支持低中高三种推理强度 开发者可通过系统消息一键设置 [29] 许可与争议 - 采用Apache 2.0开源许可证 [37] - 被质疑开源不彻底 未公开训练过程 数据源及强化学习方法 无法完整复现模型 [9][27] - 基准测试未与DeepSeek Qwen Kimi等开源模型及Claude Grok Gemini等闭源模型对比 [9][29]
OpenAI时隔6年再度开源,两款推理模型,o4-mini级,手机和笔记本能跑
36氪·2025-08-06 11:23