产品发布 - OpenAI发布其自GPT-2以来首批开源语言模型系列gpt-oss,包括gpt-oss-120b和gpt-oss-20b两款模型 [1][7] - 模型权重可在Hugging Face上免费下载,采用Apache 2.0许可证,原生使用MXFP4量化格式,使得gpt-oss-120b可在80GB内存内运行,gpt-oss-20b仅需16GB内存 [1][5] - 模型支持完整的思维链推理和结构化输出,并可通过系统消息中的一句话设置低、中、高三种推理力度 [1][5] 技术架构 - gpt-oss模型为Transformer架构,利用混合专家模型来减少活跃参数,gpt-oss-120b总参数1170亿,每个令牌激活51亿参数;gpt-oss-20b总参数210亿,每个令牌激活36亿参数 [4] - 模型采用交替的密集型和局部带状稀疏注意力模式,使用分组多查询注意力和旋转位置嵌入,原生支持长达128k的上下文长度 [4] - 训练结合了强化学习及借鉴OpenAI内部最先进模型的技术,后训练过程与o4-mini类似,包括有监督微调和强化学习阶段 [4][5] 性能表现 - 在核心推理基准测试上,gpt-oss-120b表现接近OpenAI o4-mini,gpt-oss-20b结果与o3-mini相近 [6] - 在工具使用、思维链推理等方面,两款模型表现出色,甚至超过了OpenAI o1和GPT-4o等专有模型 [6] - 但Artificial Analysis的独立测试显示,gpt-oss-120b智能水平落后于DeepSeek R1和Qwen3 235B,后两者得分分别为59分和64分 [8] 行业竞争 - 几乎与gpt-oss开源同时,谷歌Deepmind宣布推出Genie 3,Anthropic放出Claude Opus 4.1 [1] - Claude Opus 4.1在SWE-bench Verified编程评测中表现达74.5%,无害回复率从上代97.27%提升至98.76% [3] - 有用户实测对比指出Claude Opus 4.1编码能力最强且稳定,而gpt-oss-120b写代码不稳定,gpt-oss-20b效果较好 [3] 模型局限性 - 在PersonQA基准上,gpt-oss-120b和gpt-oss-20b的幻觉率分别高达49%和53%,远高于o1模型的16%和o4-mini的36% [11][12] - Tau-Bench测试显示gpt-oss-20b工具调用可靠性得分为54.8分,明显逊色于120b的67.8分和o3的70.4分 [13] - 用户实测反馈模型创意写作能力不佳,高强度推理模式易陷入无限循环并超时 [12][14]
Claude 小升级就赢了OpenAI 9年“开源神作”?高强度推理直接歇菜、幻觉率高达50%,写作还被Kimi 2吊锤?
36氪·2025-08-06 15:32