Workflow
MXFP8
icon
搜索文档
8个字引爆国产芯片!UE8M0 FP8到底是个啥?
华尔街见闻· 2025-08-24 20:54
文章核心观点 - DeepSeek V3.1采用UE8M0 FP8精度格式 引发市场对国产芯片产业链关注 国产AI芯片企业股价大幅上涨 行业进入软硬协同生态化发展阶段 [1][3][36][37] UE8M0 FP8技术解析 - UE8M0 FP8为MXFP8格式的缩放因子配置 其中U代表无符号 E8M0表示8bit全部分配给指数位 无尾数和符号位 [10][17][18] - MXFP8由Open Compute Project定义 将张量切块后为每个块单独指定2的整数次幂作为缩放因子 再压缩为FP8格式 动态范围扩展数十倍 [11][13][14] - UE8M0优势包括:处理器复原数据只需移动指数位 无需浮点乘法或舍入逻辑 动态范围覆盖2^(-127)到2^128 错误率大幅降低且减少信息损失 [22][23] 国产芯片产业影响 - 寒武纪22日盘中大涨20% 总市值超5200亿元 跃居科创板头名 半导体ETF半日大涨5.89% [2][5][29] - 摩尔线程MUSA 3.1 GPU 芯原VIP9000 NPU等2025H2新品均支持原生FP8或Block FP8 并与DeepSeek 华为等15家厂商联合验证UE8M0格式 [26] - UE8M0让32个FP8数据仅追加8bit缩放因子 相比传统FP32缩放节省75%流量 缓解国产芯片HBM/LPPDDR带宽不足的瓶颈 [27] 受益厂商分析 - 寒武纪MLU370-S4 思元590及690系列芯片均支持FP8计算 架构设计和低精度优化领先 被市场视为头号种子选手 [29][30] - 海光深算三号DCU 沐曦曦云C600 中昊芯英"刹那"TPU 摩尔线程MTT S5000均支持FP8精度计算 [31][34] - 华为昇腾910B/C暂不支持原生FP8 但官方路线图规划2025Q4支持 预计2026年新品可能成为下一代芯片 [32] 行业生态意义 - UE8M0 FP8提升国产芯片性价比 同等硬件可运行更大模型 减少对英伟达 AMD等国外算力依赖 [36] - DeepSeek通过精度格式改动主动贴合国产芯片性能点 形成类似"Wintel联盟"的软硬协同生态护城河 [37]
算力股、芯片股都疯了!DeepSeek一句话让国产芯片集体暴涨!
是说芯语· 2025-08-22 15:49
DeepSeek V3.1发布及UE8M0 FP8技术影响 - DeepSeek V3.1发布采用UE8M0 FP8参数精度 引发市场广泛关注[1][31] - 官方透露新架构及下一代国产芯片信息 信息量巨大但表述简短[1][32] 国产芯片股价表现 - 寒武纪股价收盘上涨20% 总市值跃居科创板头名[2][24] - 半导体ETF全天大涨10% 代码512480 SH收报1 311元 单日上涨0 110元[3] - 芯片产业链集体走强 科创50指数大涨3%创近三年半新高[26] - 多只半导体成分股显著上涨 包括海光信息+20% 中芯国际+14 19% 澜起科技+8 70% 兆易创新+10%[3][4] UE8M0 FP8技术解析 - UE8M0 FP8为MXFP8格式的缩放因子配置 由Open Compute Project在2023年定义[7][8] - UE8M0中U代表无符号 E8M0表示8bit全部分配给指数位 无尾数和符号位[13][14] - 该格式优势包括 处理器复原数据时只需移动指数位 无需浮点乘法或舍入逻辑 缩短时钟关键路径[16] - 动态范围覆盖2^−127至2^128 解决单尺度FP8无法兼顾大小值的问题 减少信息损失[17] - 块级缩放使32个FP8数据仅追加8bit缩放因子 相比FP32缩放节省75%流量[21] 国产芯片厂商适配进展 - 寒武纪MLU370 S4 思元590及690系列芯片均支持FP8计算 架构设计领先[24] - 摩尔线程MTT S5000 GPU 芯原VIP9000 NPU等2025H2新品支持原生FP8或Block FP8[20] - 华为昇腾910B/C暂不支持原生FP8 但官方路线图显示2025Q4将支持[25] - 海光深算三号DCU 沐曦曦云C600 中昊芯英刹那TPU均支持FP8精度计算[30] - 首批通过DeepSeek大模型适配测试的厂商包括中国电信 华为 寒武纪 昆仑芯 海光 沐瞳 中昊芯英 中科加禾[23] 行业生态与竞争影响 - UE8M0 FP8提升国产芯片性价比 同等硬件可运行更大模型 减少对英伟达 AMD等国外算力依赖[27][28] - DeepSeek通过精度格式改动主动贴合国产芯片性能点 推动软硬协同生态建设[29] - 技术优化方向与国产芯片带宽限制(HBM LPPDDR)形成互补 成为下一代架构重要优化路径[21] - 市场解读为国产AI进入软硬协同阶段 国产芯片厂商竞争力提升[27][29]