文章核心观点 - DeepSeek采用UE8M0 FP8量化策略,针对下一代国产芯片设计,展现国产软硬件一体化生态建设路径[1][4] - 英伟达推出NVFP4 4比特预训练方案,声称匹配16位精度但以4位速度运行,重新定义大规模模型训练方式[5][6][13] - 低精度量化(如FP8/FP4)通过减少存储计算开销、提升吞吐量,成为AI工厂提升算力效率的战略优势[2][8][11] FP8量化技术发展 - FP8为8位浮点数格式,相比FP32/FP16降低存储计算开销同时保持数值稳定性[2] - 微软、Meta、英特尔、AMD等企业均在研究FP8训练与推理,有望成为业界新标准[3] - DeepSeek主动采用UE8M0 FP8格式,推动硬件和工具链适配,加速国产软硬件生态建设[4] NVFP4技术突破 - NVFP4支持4比特预训练,在120亿参数模型上经10万亿token训练验证,精度与FP8相当[26][31] - 关键技术包括微块缩放(每16元素共享缩放因子)、E4M3高精度块编码、张量分布重塑及量化一致性保持[18][19][20][21] - Blackwell架构原生支持FP4,GB300相比Hopper实现GEMM运算7倍加速,提升矩阵计算效率[13][17] 低精度量化的行业影响 - AI工厂核心指标为token吞吐量,低精度格式通过提升算术运算效率释放算力潜能[8][9][10] - 4比特预训练可减少内存需求、优化通信效率,在相同硬件下处理更多token且保持精度[10][11] - 低精度训练推动高性能AI模型开发,支持更大规模模型训练和更快速实验迭代[6][15] 应用与生态合作 - NVFP4目前处于研究阶段,合作方包括AWS、Cohere、Google Cloud、Microsoft AI等领先组织[6] - 低精度量化与边缘计算结合(如Jetson Thor芯片),实现从训练到部署的高效能效闭环[7] - 行业争议点在于低精度虽提升单次训练效率,但可能无法缓解AI总体算力需求扩张带来的能源压力[6]
DeepSeek刚提到FP8,英伟达就把FP4精度推向预训练,更快、更便宜