DeepSeek掷出FP8骰子

芯片与AI算力指数表现 - 芯片指数（884160 WI）午盘涨002% 近一个月涨195% [3] - AI算力指数（8841678 WI）午盘涨145% 近一个月涨2247% [3] DeepSeek-V31技术突破 - DeepSeek发布V31版本采用UE8M0 FP8 Scale参数精度针对下一代国产芯片设计 [3] - FP8为8位浮点数格式遵循IEEE 754规范相比FP16内存占用减半至05倍传输效率与硬件算力提升至2倍 [10] - 低精度量化可同时应对计算量大、储存不足和数据传输慢问题 [12] FP8技术发展历程 - 英伟达2022年9月在GTC大会首次将FP8写入产品路线图 H100 GPU原生支持FP8 [8] - 2023年OCP发布《MX规范》第一版通过块缩放将FP8包装为可落地的MXFP8 [8] - 2024年12月DeepSeek通过V3模型跑通MXFP8 吸引行业关注 [9] - 行业从FP16向FP8演进因万卡集群与推理爆发导致成本、功耗、显存成为核心问题 [9] 国产芯片市占率与政策支持 - 2025年第二季度国产芯片市占率提升至387% [12] - 工信部《算力互联互通行动计划》提出2026年建立算力互联互通标准体系 2028年实现全国公共算力标准化互联 [12] - 中国AI加速卡国产份额从2023年不足15%升至2025年上半年超40% 预计年底过半 [17] 低精度计算的优势与局限 - FP8在矩阵乘法中表现优异但累加或特定函数计算仍需高精度支持 [15] - 低精度浮点技术缓解硬件需求压力与HBM瓶颈减少算力需求、内存容量及带宽要求降低芯片功耗 [13] - 精度低于FP4时数据可能失真 FP4可能是技术极限训练与微调仍需FP16/FP32高精度 [15] - 精度替换只能部分进行敏感环节需保留高精度计算 [16] 行业应用与未来趋势 - FP8推动算力厂商调整技术路线多精度混合架构可同时运行FP32/FP16/FP8任务训练效率显著提升 [12] - 低精度计算提升大语言模型效率改善多模态领域如AI视频生成与世界模型的响应速度 [17] - 国产算力产业链完成融资-研发-场景落地正向循环走出独立于海外生态的可持续路径 [17]