Workflow
DeepSeek掷出FP8骰子:一场关于效率、成本与自主可控的算力博弈
Seek .Seek .(US:SKLTY) 第一财经·2025-08-26 13:47

国产算力产业链独立发展路径 - 国产算力产业链正稳步走出一条独立于海外生态的可持续路径 [1][13] 市场表现与指数变化 - 芯片指数(884160.WI)探底回升,午盘涨0.02%,近一个月涨19.5% [2] - AI算力指数(8841678.WI)热度延续,午盘涨1.45%,近一个月涨22.47% [2] DeepSeek技术升级与行业影响 - DeepSeek发布DeepSeek-V3.1,使用UE8M0 FP8 Scale参数精度,针对下一代国产芯片设计 [2] - DeepSeek通过V3模型跑通MXFP8,在复杂AI训练任务中高效发挥作用 [7] - DeepSeek采用DualPipe并行算法,将跨节点MoE训练的通信开销降至接近零 [12] FP8技术发展历程 - FP8是一种8位浮点数格式,遵循IEEE 754规范 [5] - 英伟达在2022年9月GTC大会上首次将FP8写入产品路线图,H100 GPU原生支持FP8 [6] - 2023年OCP发布《MX规范》第一版本,通过"块缩放"将FP8包装为可大规模落地的MXFP8 [6] - 2024年行业出现万卡集群、推理爆发,FP8因省显存、省电费、速度快等价值被更多厂商关注 [7] 低精度计算的优势与挑战 - 低精度量化能有效应对计算量大、储存不足和数据传输慢问题 [9] - FP8在矩阵乘法等操作中表现优异,但在累加或特定函数计算中仍需高精度支持 [12] - 低精度并非无限追求,当精度低于FP4时数据可能失真,FP4可能是技术极限 [12] - 精度替换只能部分进行,精度敏感环节仍需保留高精度计算 [13] 国产芯片市占率与政策支持 - 2025年第二季度国产芯片市占率提升至38.7% [9] - 工信部印发《算力互联互通行动计划》,提出到2026年建立完备的算力互联互通标准体系 [9] - 中国AI加速卡国产份额由2023年不足15%提升至2025年上半年40%以上,预计年底将过半 [13] 行业趋势与厂商布局 - AI投资主线从"有没有GPU"的"囤卡"策略倾斜到"省不省算力"的效率路线 [7] - 多精度混合架构可同时运行FP32、FP16与FP8任务,训练效率较传统方案显著提升 [10] - 低精度浮点技术缓解硬件需求压力与HBM瓶颈问题,减少芯片功耗 [10] - 低精度计算催生更大、能力更强的模型,支持更长token序列并提供更快响应 [13]