Claude 小升级就赢了OpenAI 9年“开源神作”？高强度推理直接歇菜、幻觉率高达50%，写作还被Kimi 2吊锤？

OpenAI开源模型发布 - OpenAI发布首个开源语言模型系列gpt-oss，包括gpt-oss-120b和gpt-oss-20b两款模型，支持完全定制、思维链推理和结构化输出 [2] - 两款模型权重可在Hugging Face免费下载，采用MXFP4量化格式，gpt-oss-120b需80GB内存，gpt-oss-20b仅需16GB内存 [2] - 模型采用混合专家(MoE)架构，gpt-oss-120b每个令牌激活51亿参数，总参数1170亿；gpt-oss-20b每个令牌激活36亿参数，总参数210亿 [9] 技术架构与性能 - 模型采用分组多查询注意力(组大小8)和旋转位置嵌入(RoPE)，支持128k上下文长度 [9] - 训练过程结合强化学习和内部先进模型技术，后训练包括监督微调和强化学习阶段 [8][9] - 在工具使用、少样本函数调用和思维链推理方面表现优异，甚至超过部分专有模型 [10] - gpt-oss-120b在单块80GB GPU上运行效率高，gpt-oss-20b适合边缘设备部署 [10] 行业竞争格局 - 谷歌Deepmind同期推出Genie 3，Anthropic发布Claude Opus 4.1 [3] - Claude Opus4.1在SWE-bench编程评测中达74.5%，无害回复率提升至98.76% [5] - 实测显示Claude Opus 4.1编码能力优于gpt-oss，gpt-oss-120b编码不稳定 [6] 模型评测与反馈 - gpt-oss-120b在Artificial Analysis测试中智能水平落后于DeepSeek R1和Qwen3 235B [13] - 在PersonQA基准测试中，gpt-oss-120b和gpt-oss-20b幻觉率分别达49%和53%，显著高于其他模型 [16] - 用户实测发现gpt-oss-20b工具调用可靠性得分54.8，低于120b的67.8和o3的70.4 [17] - 高强度推理模式存在循环超时问题，创意写作能力不及Kimi 2和o3 [17] 行业影响与定位 - 这是OpenAI自GPT-2以来首次开源语言模型 [11] - 模型基于Apache 2.0许可证发布，定位为高效部署的开源方案 [10] - 行业专家评价认为gpt-oss-120b表现强大，是OpenAI首次真正"开放" [12] - 部分观点认为其性能不及xAI的初期模型，但支持者强调这只是开源版本 [14]