浮点数格式

搜索文档
DeepSeek-V3.1适配下一代国产芯片引爆市场,大模型这次和哪些国产芯一起“自主可控”?
36氪· 2025-09-01 19:37
产品发布与市场反应 - DeepSeek于8月21日正式发布DeepSeek-V3.1模型 主要升级包括混合推理架构、更高思考效率及更强Agent能力 [1] - 新模型采用UE8M0 FP8参数精度 专为下一代国产芯片设计 [1] - 发布次日FP8概念股大幅上涨 寒武纪、和而泰、佳都科技均涨停 [1] FP8技术解析 - FP8为8位浮点数格式 通过拆分符号位、指数位和尾数位平衡数值范围与精度 [4][5][6] - UE8M0 FP8为无符号格式 指数位8位、尾数位0位 以牺牲精度换取极大动态范围 [7][8] - 该格式需依赖算法与硬件设计弥补精度问题 与国产芯片特性高度适配 [8] 低精度计算演进背景 - FP32为早期AI训练标准格式 但显存占用高 AlexNet训练需消耗约1.5TB显存 [11][12] - FP16将存储需求减半 计算速度提升2倍以上 但存在梯度溢出问题 [14] - BF16指数位扩展至8位 动态范围与FP32相当 成为GPT-3等大模型训练首选 [14] - 英伟达2022年Hopper架构首次原生支持FP8 吞吐量翻倍且显存占用减半 [15] 国产芯片协同设计意义 - 主流FP8多采用英伟达E4M3/E5M2格式 国产GPU因电路与指令集差异无法直接兼容 [18][21] - UE8M0格式优先考虑动态范围 可提升国产芯片数值稳定性 避免梯度爆炸 [21] - 软硬件协同设计减少非英伟达架构移植阻力 加速国产AI基础设施投产 [22] - 该合作被视为应对美国AI芯片出口限制、实现技术自给自足的关键举措 [22] 国产生态适配进展 - 中国信通院自2025年2月开展DeepSeek适配测试 30余家企业参与 首批8家通过认证 [23][25] - 适配系统在语言理解与逻辑推理任务精度上与国外系统持平 单机8卡可推理671B模型 [25] - 华为、寒武纪、海光等企业硬件产品均通过适配 涵盖芯片、服务器与云服务关键环节 [25] 行业竞争态势 - 英伟达于2025年6月推出NVFP4格式 4位精度可实现16位训练精度 技术迭代加速 [26][27] - 国产模型与芯片厂商仍需持续追赶技术差距 但已通过协同设计建立初步生态基础 [27]