Workflow
DeepSeek掷出FP8骰子

芯片与AI算力指数表现 - 芯片指数(884160.WI)近一个月涨19.5%,AI算力指数(8841678.WI)近一个月涨22.47% [2] - 指数走高反映AI算力需求剧增与国产替代加速趋势 [2] FP8低精度计算技术发展 - FP8为8位浮点数格式,内存占用仅为FP16的0.5倍,传输效率提升2倍,硬件算力提升2倍 [8] - 英伟达2022年首次将FP8写入产品路线图,2023年OCP发布MXFP8规范解决训练稳定性问题 [5][6] - DeepSeek 2024年通过V3模型跑通MXFP8,推动低精度计算在AI训练中的应用 [7] 低精度计算的行业驱动因素 - 大模型推理对低精度计算需求极大,可缓解硬件压力与HBM瓶颈问题 [10] - 低精度量化有效应对计算量大、存储不足和数据传输慢三大问题 [9] - 混合精度训练框架(如FP32/FP16/FP8多精度架构)显著提升训练效率 [9] 国产算力产业进展 - 中国AI加速卡国产份额从2023年不足15%提升至2025年上半年40%以上,预计年底过半 [14] - 国产算力产业链完成"融资-研发-场景落地"正向循环,独立于海外生态 [14] - 工信部计划到2026年建立算力互联互通标准体系,2028年实现全国公共算力互联 [9] 低精度计算的技术边界与应用 - 精度低于FP4可能导致数据失真,FP4可能是当前技术极限 [13] - FP8在矩阵乘法中表现优异,但累加等操作仍需高精度支持 [13] - 低精度主要应用于推理场景,训练和微调仍需FP16/FP32保障精度 [13] 行业生态与标准化进展 - 软件栈平台(如CUDA、PyTorch)逐步原生支持FP8算子 [5] - InfiniBand网络需支持FP8格式高效传输以实现跨节点训练优化 [13] - 低精度计算趋势从训练端向推理端渗透,推动芯片厂商调整技术路线 [9]