从GPT-2到gpt-oss，深度详解OpenAI开放模型的进化之路

模型架构演进 - gpt-oss-120b和gpt-oss-20b是OpenAI自2019年GPT-2后首次发布的开放权重模型，支持本地运行[4][7] - 模型架构延续主流LLM设计，但包含多项优化：移除Dropout、RoPE取代绝对位置嵌入、SwiGLU取代GELU、混合专家(MoE)模块等[17][20][27][37] - 采用分组查询注意力(GQA)和滑动窗口注意力提升计算效率，窗口大小仅128 token[41][47][51] - 使用RMSNorm替代LayerNorm降低计算成本，更适合大规模LLM[52][56] 性能优化技术 - MXFP4量化方案使gpt-oss-20b可在16GB显存GPU运行，120b版本需80GB H100[10][97][99] - 推理工作量分级控制（低/中/高）动态调节响应长度和准确率[94][96] - MoE设计采用32专家/4活跃专家配置，专家参数占比超90%[39][72][77] - 注意力机制引入偏差单元和sinks增强长上下文稳定性[83][87] 行业竞品对比 - 与Qwen3相比：gpt-oss宽度更大（嵌入维度2880vs2048），但深度仅24层vs48层[67][69][70] - 基准测试显示gpt-oss-120b性能接近Qwen3 235B，但参数量仅一半[107][113] - 两者均采用Apache 2.0许可，但gpt-oss未公开训练代码和数据集[88] - 推理能力突出但存在幻觉倾向，设计侧重工具集成而非事实记忆[107][108] 技术趋势观察 - Transformer仍是LLM核心架构，改进多来自数据/算法调整而非架构革命[13] - 模型轻量化需求推动量化技术发展（如MXFP4）[97][99] - 行业向稀疏化（MoE）、注意力优化（GQA/滑动窗口）方向演进[37][41][47] - 开源模型与专有模型性能差距显著缩小[110][114]