Workflow
FP8
icon
搜索文档
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
智通财经网· 2025-08-24 15:48
公司动态 - DeepSeek宣布新一代模型DeepSeek-V3.1采用UE8M0 FP8 Scale参数精度 该精度标准针对下一代国产芯片设计 [1] - 消息引发资本市场强烈反应 寒武纪等芯片类上市企业股价集体拉升 [1] - 在2025算力大会上 FP8精度标准被讨论 但业内人士情绪较资本市场更为审慎 [1] 技术解析 - FP8将数据宽度压缩至8位 相比FP32的4字节传输量 FP8仅需1字节 算力效率翻倍 同时降低网络带宽通信量和存储要求 [2] - 在相同功耗下 AI芯片可训练更大模型或缩短训练时间 [2] - 低精度训练推理易因数值范围太小导致计算出错 不同计算对精度要求不同 矩阵乘法对精度不敏感可用FP8 累加或某些函数需较高精度 [3] - 业内通常采用混合精度训练 根据计算类型动态选择不同精度 兼顾效率与准确 [3] 行业影响 - DeepSeek-V3.1使用UE8M0 FP8 Scale参数精度 被视为国产AI芯片即将迈入新阶段的信号 [4] - FP8代表算力优化正确方向 大模型训练推理不只是堆砌硬件 但并非灵丹妙药 需关注实际落地效果 [4] - 大模型对精度容忍度越来越高 从FP32到FP16再到FP8是行业逐步验证路径 DeepSeek验证FP8在大规模模型可行性 [4] - 精度标准变化需上下游厂商联动优化 国产算力生态需同步升级 包括芯片、框架、算力平台到应用层闭环适配 [4] - 摩尔线程已提前布局FP8研究 作为技术储备并在生态调整中占据主动 [4] 发展挑战 - 大模型训练推理核心瓶颈包括能耗、稳定性和集群利用 需解决效率与容错问题 确保集群可靠性 [5] - 国内万卡规模集群已有部署 但需向大智算集群演进 简单堆卡不能完全满足需求 提高单卡效率与集群调度优化同样关键 [5]
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
财联社· 2025-08-24 12:34
文章核心观点 - DeepSeek-V3.1采用UE8M0 FP8 Scale参数精度 引发资本市场对国产AI芯片企业的关注 寒武纪等公司股价大幅上涨[1][4] - FP8精度标准被视为国产算力生态升级的关键方向 但产业界对其实际落地效果持审慎态度[1][4] - FP8技术通过降低数据宽度至8位提升算力效率并减少通信开销 但需通过混合精度训练平衡效率与准确性[2][3] FP8技术特性与优势 - FP8将数据宽度压缩至8位 相比FP32(32位浮点数)和FP16(16位浮点数)进一步减少存储和通信开销[2] - FP8使算力效率翻倍 传输FP8数值仅需1字节(原FP32需4字节) 单位时间内传输信息量增加且存储要求降低[2] - 在相同功耗下 AI芯片可训练更大模型或缩短训练时间[2] FP8技术挑战与局限性 - FP8低精度训练易因数值范围太小导致计算出错 需根据计算类型动态选择精度[3] - 矩阵乘法等操作对精度不敏感可用FP8 但累加或某些函数需较高精度 需采用混合精度训练兼顾效率与准确[3] 国产算力生态发展 - DeepSeek验证FP8在大规模模型上的可行性 为国产算力厂商提供发展机会[4] - 精度标准变化需芯片、框架、算力平台到应用层闭环适配 国产算力生态需同步升级[5] - 大模型训练核心瓶颈包括能耗、稳定性和集群利用 需提高单卡效率与集群调度优化而非简单堆砌硬件[5] 行业趋势与方向 - 大模型对精度容忍度逐步提高 从FP32到FP16再到FP8是行业验证过的技术路径[4] - FP8代表算力优化正确方向 未来可能在FP8标准乃至更高精度上进行研究或训练[4]
安孚科技(603031.SH):象帝先即将推出的伏羲架构B0芯片是为AIPC设计的异构芯片,支持FP8运算
格隆汇· 2025-08-22 15:53
公司技术进展 - 安孚科技在投资者互动平台中解释FP8是一种8位浮点数表示 相比传统FP16和FP32显著减少存储并提高计算吞吐 [1] - FP8在大模型训练中使模型权重和激活值内存占用直接减半 计算速度较FP16可提升2-3倍 [1] - 公司旗下象帝先即将推出伏羲架构B0芯片 该芯片为AIPC设计的异构芯片并支持FP8运算 [1]
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
量子位· 2025-08-22 13:51
文章核心观点 - DeepSeek V3.1发布采用UE8M0 FP8参数精度 引发市场对国产芯片技术升级和生态协同的高度关注 带动相关企业股价显著上涨 [1][3][4] - UE8M0 FP8技术通过块级缩放和动态范围优化 显著降低带宽需求并提升计算效率 成为适配下一代国产芯片的关键创新 [10][11][19][20] - 国产AI芯片厂商如寒武纪、海光、沐曦等已布局FP8支持 软硬协同生态构建有望减少对国外算力依赖 提升行业竞争力 [23][24][33][34] 技术架构分析 - UE8M0 FP8由Open Compute Project定义 采用8位微缩块格式 通过分块缩放因子扩展动态范围数十倍 [8][10][11] - UE8M0格式无符号位和尾数位 全部分配8bit至指数位 处理器复原数据仅需移动指数位 无需浮点乘法或舍入逻辑 [14][19] - 相比传统FP32缩放 UE8M0使32个FP8数据仅追加8bit缩放因子 节省75%流量 显著优化带宽和功耗 [24] 国产芯片厂商动态 - 寒武纪早盘股价大涨近14% 总市值超4940亿元 跃居科创板首位 其MLU370-S4及思元590/690系列均支持FP8计算 [4][29] - 海光深算三号DCU、沐曦曦云C600、中昊芯英"刹那"TPU及摩尔线程MTT S5000均已支持FP8精度计算 [23][32] - 华为昇腾路线图显示2025Q4将支持原生FP8 预计2026年推出的新品可能成为"下一代芯片" [30] 产业生态影响 - 半导体ETF半日大涨5.89% 科创50指数涨3%创近三年半新高 芯片产业链集体走强 [4][31] - DeepSeek与15家厂商联合验证UE8M0格式 包括中国电信、昆仑芯等8家通过大模型适配 构建统一软硬协同生态 [23][27][34] - 技术升级提升国产芯片"性价比" 同等硬件可运行更大模型 实质性减少对英伟达、AMD等国外算力依赖 [33][34]
摩尔线程:原生支持FP8
第一财经· 2025-08-22 11:41
技术发展 - DeepSeek-V3.1采用UE8M0 FP8 Scale参数精度 专为下一代国产芯片设计 [1] - 摩尔线程已原生支持FP8并兼容DeepSeek相关功能 [1] 市场反应 - 资本市场芯片股出现大幅上涨 [1]