Workflow
MXFP4
icon
搜索文档
推理成本骤降75%。gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
36氪· 2025-08-11 18:17
技术突破 - OpenAI在最新开源模型gpt-oss中采用MXFP4数据类型,使推理成本降低75% [1] - MXFP4将内存占用降至同规模BF16模型的1/4,同时生成token速度提升4倍 [1] - 该技术使1200亿参数大模型可运行在80GB显存显卡,16GB显存显卡可运行200亿参数版本 [1] 性能对比 - 120b模型总参数116.83B,检查点大小60.8GiB;20b模型总参数20.91B,检查点大小12.8GiB [2] - MXFP4使模型运行硬件资源需求仅为之前的1/4 [2] - 在gpt-oss中约90%权重应用了MXFP4量化 [3] 技术原理 - 模型运行成本主要由权重存储和内存带宽组成 [5][6] - MXFP4每个权重仅0.5字节,是FP32存储大小的1/8 [9] - 数据压缩降低存储空间并提升数据读写速度 [10] - MXFP4通过微缩放技术维持数值间关系精度,每组32个高精度数值共享8位缩放因子 [18][20] 硬件影响 - 浮点精度每减半,芯片浮点吞吐量可翻倍 [21] - Nvidia B200SXM模块BF16运算性能2.2 petaFLOPS,FP4可达9 petaFLOPS [21] - 运行MXFP4不要求硬件原生支持FP4,如H100虽不支持但仍可运行 [22] 行业应用 - 已有研究表明16位降至8位精度在大语言模型中几乎无质量损失 [25] - DeepSeek等公司已直接使用FP8进行模型训练 [25] - OpenAI在gpt-oss全面采用MXFP4,具有行业示范效应 [26]
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
量子位· 2025-08-11 15:48
核心观点 - OpenAI在gpt-oss开源模型中采用MXFP4数据类型,显著降低推理成本75%,同时内存占用减少至BF16模型的1/4,生成token速度提升4倍[1][5] - MXFP4量化技术使1200亿参数模型可运行于80GB显存显卡,16GB显存显卡可支持200亿参数版本[2] - 该技术通过压缩权重存储(半字节/参数)和优化内存带宽,实现降本增效[7][12][14] 技术细节 MXFP4特性 - 采用4位微缩放浮点数(MXFP4),权重存储大小仅为FP32的1/8[12][15] - 通过32个高精度数值共享8位缩放因子,平衡数据压缩与精度[20][22] - 硬件兼容性强,无需原生支持FP4(如Nvidia H100)[26][27] 性能对比 - 1200亿参数模型总参数量116.83B,Checkpoint Size 60.8GiB;200亿参数版本总参数量20.91B,Checkpoint Size 12.8GiB[3] - Nvidia Blackwell芯片FP4运算性能达9 petaFLOPS,较BF16(2.2 petaFLOPS)提升显著[24] 行业应用 - 90%的gpt-oss模型权重采用MXFP4量化,直接降低运行成本[4] - 行业趋势显示FP8量化已无显著质量损失,DeepSeek等公司直接使用FP8训练[30][31] - 英伟达推出NVFP4作为竞品,缩放块大小更小(16 vs MXFP4的32),精度更高[33] 技术局限性 - MXFP4可能因缩放块粒度不足导致质量下降,需权衡精度与计算效率[32] - 低精度数据类型(如FP4)传统上被视为性价比妥协,但MXFP4通过优化实现可行性[29][34]