OpenAI开源模型发布 - OpenAI发布首个开源语言模型系列gpt-oss,包括gpt-oss-120b和gpt-oss-20b两款模型,支持完全定制、思维链推理和结构化输出 [2] - 两款模型权重可在Hugging Face免费下载,采用MXFP4量化格式,gpt-oss-120b需80GB内存,gpt-oss-20b仅需16GB内存 [2] - 模型采用混合专家(MoE)架构,gpt-oss-120b每个令牌激活51亿参数,总参数1170亿;gpt-oss-20b每个令牌激活36亿参数,总参数210亿 [9] 技术架构与性能 - 模型采用分组多查询注意力(组大小8)和旋转位置嵌入(RoPE),支持128k上下文长度 [9] - 训练过程结合强化学习和内部先进模型技术,后训练包括监督微调和强化学习阶段 [8][9] - 在工具使用、少样本函数调用和思维链推理方面表现优异,甚至超过部分专有模型 [10] - gpt-oss-120b在单块80GB GPU上运行效率高,gpt-oss-20b适合边缘设备部署 [10] 行业竞争格局 - 谷歌Deepmind同期推出Genie 3,Anthropic发布Claude Opus 4.1 [3] - Claude Opus4.1在SWE-bench编程评测中达74.5%,无害回复率提升至98.76% [5] - 实测显示Claude Opus 4.1编码能力优于gpt-oss,gpt-oss-120b编码不稳定 [6] 模型评测与反馈 - gpt-oss-120b在Artificial Analysis测试中智能水平落后于DeepSeek R1和Qwen3 235B [13] - 在PersonQA基准测试中,gpt-oss-120b和gpt-oss-20b幻觉率分别达49%和53%,显著高于其他模型 [16] - 用户实测发现gpt-oss-20b工具调用可靠性得分54.8,低于120b的67.8和o3的70.4 [17] - 高强度推理模式存在循环超时问题,创意写作能力不及Kimi 2和o3 [17] 行业影响与定位 - 这是OpenAI自GPT-2以来首次开源语言模型 [11] - 模型基于Apache 2.0许可证发布,定位为高效部署的开源方案 [10] - 行业专家评价认为gpt-oss-120b表现强大,是OpenAI首次真正"开放" [12] - 部分观点认为其性能不及xAI的初期模型,但支持者强调这只是开源版本 [14]
Claude 小升级就赢了OpenAI 9年“开源神作”?高强度推理直接歇菜、幻觉率高达50%,写作还被Kimi 2吊锤?
AI前线·2025-08-06 12:25