Claude 小升级就赢了OpenAI 9年“开源神作”？高强度推理直接歇菜、幻觉率高达50%，写作还被Kimi 2吊锤？

产品发布 - OpenAI发布其自GPT-2以来首批开源语言模型系列gpt-oss，包括gpt-oss-120b和gpt-oss-20b两款模型 [1][7] - 模型权重可在Hugging Face上免费下载，采用Apache 2.0许可证，原生使用MXFP4量化格式，使得gpt-oss-120b可在80GB内存内运行，gpt-oss-20b仅需16GB内存 [1][5] - 模型支持完整的思维链推理和结构化输出，并可通过系统消息中的一句话设置低、中、高三种推理力度 [1][5] 技术架构 - gpt-oss模型为Transformer架构，利用混合专家模型来减少活跃参数，gpt-oss-120b总参数1170亿，每个令牌激活51亿参数；gpt-oss-20b总参数210亿，每个令牌激活36亿参数 [4] - 模型采用交替的密集型和局部带状稀疏注意力模式，使用分组多查询注意力和旋转位置嵌入，原生支持长达128k的上下文长度 [4] - 训练结合了强化学习及借鉴OpenAI内部最先进模型的技术，后训练过程与o4-mini类似，包括有监督微调和强化学习阶段 [4][5] 性能表现 - 在核心推理基准测试上，gpt-oss-120b表现接近OpenAI o4-mini，gpt-oss-20b结果与o3-mini相近 [6] - 在工具使用、思维链推理等方面，两款模型表现出色，甚至超过了OpenAI o1和GPT-4o等专有模型 [6] - 但Artificial Analysis的独立测试显示，gpt-oss-120b智能水平落后于DeepSeek R1和Qwen3 235B，后两者得分分别为59分和64分 [8] 行业竞争 - 几乎与gpt-oss开源同时，谷歌Deepmind宣布推出Genie 3，Anthropic放出Claude Opus 4.1 [1] - Claude Opus 4.1在SWE-bench Verified编程评测中表现达74.5%，无害回复率从上代97.27%提升至98.76% [3] - 有用户实测对比指出Claude Opus 4.1编码能力最强且稳定，而gpt-oss-120b写代码不稳定，gpt-oss-20b效果较好 [3] 模型局限性 - 在PersonQA基准上，gpt-oss-120b和gpt-oss-20b的幻觉率分别高达49%和53%，远高于o1模型的16%和o4-mini的36% [11][12] - Tau-Bench测试显示gpt-oss-20b工具调用可靠性得分为54.8分，明显逊色于120b的67.8分和o3的70.4分 [13] - 用户实测反馈模型创意写作能力不佳，高强度推理模式易陷入无限循环并超时 [12][14]