
公司动态 - DeepSeek宣布新一代模型DeepSeek-V3.1采用UE8M0 FP8 Scale参数精度 该精度标准针对下一代国产芯片设计 [1] - 消息引发资本市场强烈反应 寒武纪等芯片类上市企业股价集体拉升 [1] - 在2025算力大会上 FP8精度标准被讨论 但业内人士情绪较资本市场更为审慎 [1] 技术解析 - FP8将数据宽度压缩至8位 相比FP32的4字节传输量 FP8仅需1字节 算力效率翻倍 同时降低网络带宽通信量和存储要求 [2] - 在相同功耗下 AI芯片可训练更大模型或缩短训练时间 [2] - 低精度训练推理易因数值范围太小导致计算出错 不同计算对精度要求不同 矩阵乘法对精度不敏感可用FP8 累加或某些函数需较高精度 [3] - 业内通常采用混合精度训练 根据计算类型动态选择不同精度 兼顾效率与准确 [3] 行业影响 - DeepSeek-V3.1使用UE8M0 FP8 Scale参数精度 被视为国产AI芯片即将迈入新阶段的信号 [4] - FP8代表算力优化正确方向 大模型训练推理不只是堆砌硬件 但并非灵丹妙药 需关注实际落地效果 [4] - 大模型对精度容忍度越来越高 从FP32到FP16再到FP8是行业逐步验证路径 DeepSeek验证FP8在大规模模型可行性 [4] - 精度标准变化需上下游厂商联动优化 国产算力生态需同步升级 包括芯片、框架、算力平台到应用层闭环适配 [4] - 摩尔线程已提前布局FP8研究 作为技术储备并在生态调整中占据主动 [4] 发展挑战 - 大模型训练推理核心瓶颈包括能耗、稳定性和集群利用 需解决效率与容错问题 确保集群可靠性 [5] - 国内万卡规模集群已有部署 但需向大智算集群演进 简单堆卡不能完全满足需求 提高单卡效率与集群调度优化同样关键 [5]