FP8 - 财报，业绩电话会，研报，新闻

FP8

搜索文档

DeepSeek官宣重磅更新！寒武纪等国产AI芯片全面爆发！DeepSeek FP8概念股来袭

私募排排网· 2025-08-25 15:00

DeepSeek V3.1模型与UE8M0 FP8技术突破 - DeepSeek于2025年8月21日发布V3.1版本模型，引入混合推理架构、更高思考效率及优化智能体任务表现[2] - 模型采用UE8M0 FP8数据格式，专为下一代国产芯片设计，通过8位指数和共享Scale因子实现超低精度表示，数据位宽仅为FP32的1/4、FP16的1/2[5] - UE8M0 FP8采用"范围优先"策略，牺牲部分小数精度以换取更大动态范围和数值稳定性，适配国产芯片的整数/移位计算单元[5] - 此为国产大模型厂商首次自主定义低精度格式，打破英伟达E4M3/E5M2垄断，形成"国产模型-国产芯片-国产系统"闭环[6] 国产AI芯片公司FP8适配进展 - 寒武纪2022年定增项目计划扩展对FP8数据类型的支持，近1个月股价涨幅达113.61%[7] - 芯原股份在研项目支持FP8等多种数据格式，近1个月涨幅72.82%[9] - 景嘉微直接持股摩尔线程，后者实现单芯片FP8计算精度支持，近1个月涨幅57.20%[9] - 国芯科技DeepEdge10系列芯片已实现FP8硬件原生支持及14nm全国产化量产，近1个月涨幅54.17%[9] - 兆易创新GD5F系列支持FP8混合精度计算，M87系列与UE8M0 FP8内存架构高度协同，近1个月涨幅28.84%[9] - 其他支持FP8的A股公司包括云天励飞（涨幅158.66%）、格灵深瞳（69.37%）、润欣科技（64.68%）等共计20余家企业[9][10] 国产AI芯片市场格局与竞争态势 - 英伟达告知供应商暂停专为中国市场定制的AI芯片H20生产，同时开发基于Blackwell架构的新型芯片B30A[11] - 特朗普政府考虑允许英伟达向中国出售"性能削减版本"AI芯片，但需缴纳销售收入15%的费用[11] - 英伟达在中国市场份额从四年前的95%降至2024年的50%，同期中国本土AI芯片品牌渗透率从15%提升至30%，2024年出货量达82万张[12] - 中国AI芯片市场规模预计从2024年1425.37亿元增长至2029年1.34万亿元，年均复合增长率53.7%[12] - 全球芯片架构呈现"GPU领跑、ASIC崛起"格局，国内ASIC架构主导且发展优于国外厂商，GPU仍处起步阶段[12] - 华为昇腾910D芯片采用原生达芬奇架构3.0、自研HBM3e存算一体技术，理论算力峰值有望超越英伟达H100[13] 华为昇腾生态合作伙伴 - 四川长虹间接持有华鲲振宇股份，推出基于昇腾的"天宫"系列服务器，近1个月涨幅19.06%[14] - 神州数码为昇腾优选级合作伙伴，推出AI推理服务器神州鲲泰系列，支持DeepSeek模型部署，近1个月涨幅22.19%[14] - 其他昇腾生态伙伴包括广电运通（涨幅11.25%）、软通动力（9.43%）、常山北明（8.97%）等企业，覆盖硬件、软件与算力基础设施领域[14]

Deepseek V3.1的UE8M0 FP8和英伟达的FP8格式有什么区别

傅里叶的猫· 2025-08-24 20:31

DeepSeek V3.1引入UE8M0 FP8的意义 - DeepSeek V3.1发布引入UE8M0 FP8格式，针对下一代国产芯片进行优化，提前适配硬件以缩短部署时间 [2][11] - UE8M0是一种无符号8位指数、0位尾数的FP8编码格式，由Open Compute Project（OCP）提出，属于MXFP8规范的一部分 [7][8] - 该格式核心目标是数据压缩，相比FP32内存占用减少75%，推理吞吐量达到BF16的2倍，提升训练和推理效率 [7][13] UE8M0与英伟达FP8标准的差异 - 英伟达采用E4M3（精度优先）和E5M2（动态范围优先）FP8格式，依赖Tensor Core和专有软件优化 [7][10] - UE8M0侧重范围优先和兼容性，通过通道级校准和高精度累加（如FP16）弥补精度损失，适配国产芯片硬件架构 [10][11] - 国产芯片（如摩尔线程MUSA、芯原VIP9000 NPU）支持原生FP8，但底层计算单元与英伟达不同，直接套用国外标准可能导致数值溢出或计算故障 [9][12] 国产AI生态的战略价值 - UE8M0推动软硬件协同设计，DeepSeek提前与国产芯片厂商合作，实现"向前兼容"，加速国产芯片从实验室到实际应用的落地 [11][12] - 摆脱对英伟达标准的依赖，避免国产GPU针对E4M3/E5M2优化效率低下，探索适合本土硬件的技术路径 [12] - 该方案并非追求超越英伟达，而是补位国产生态，使国产芯片达到接近国外FP8的效率水平 [14] 技术性能与局限性 - UE8M0在内存节省和推理速度上优势显著：内存占用较FP32降75%，推理吞吐量达BF16的2倍（例如单卡请求处理从100/秒提升至200/秒） [13] - 局限性包括：梯度累加等计算仍需BF16/FP16支持，本质为混合方案（FP8存储+16位累加）；依赖芯片厂商底层优化，否则性能无法充分发挥；需精细校准数据防止极端数值误差 [15] 行业技术对比背景 - 英伟达B200芯片支持FP4/FP6，性能大幅提升：FP4算力达17,000 TFLOPS，较H100提升254%；B200功耗1,000W，系统功耗1,788W/GPU，内存带宽8,000 GB/s（较H100提升139%） [6] - 国产芯片需通过UE8M0等自主标准实现技术追赶，而非直接对标英伟达高端芯片规格 [12][14]

猿大侠· 2025-08-24 12:11

英伟达H20芯片生产暂停与市场动态 - 英伟达通知部分供应商暂停中国特供AI芯片H20的生产[1] - 受影响的供应商包括三星电子（提供高带宽内存芯片）和安靠科技（负责先进封装）[2] - 公司发言人回应称供应链管理基于市场状况调整[3] H20芯片订单与监管变化 - H20是专为中国市场设计的AI芯片占英伟达中国区收入的80%[6] - 美国于4月禁止该芯片对华销售 7月中旬宣布恢复销售[7] - 7月底因需求强劲英伟达向台积电紧急追加30万片H20订单[8] - 8月获得出口许可条件为向美国政府上缴15%销售额[9] 安全争议与政府审查 - 7月31日网信中国公众号披露英伟达算力芯片存在严重安全问题[10] - 美议员要求先进芯片配备追踪定位功能专家称远程关闭技术已成熟[12] - 国家网信办约谈英伟达要求就H20漏洞后门问题提交说明材料[13] - 公司回应否认存在后门强调网络安全重要性[13] 新产品开发与技术演进 - 英伟达正基于Blackwell架构开发新型中国特供芯片B30A[13] - 采用单芯片设计性能约为B300芯片的一半[14] - 搭载HBM高带宽内存与NVLink技术支持高速数据传输[16] - 计划下月向中国客户提供样品测试[16] - H20停产可能与新品推出相关[17] 国产芯片技术突破 - DeepSeek发布V3.1版本披露下一代国产芯片设计UE8M0 FP8[19][20] - FP8为8位浮点格式较传统FP16显存占用降低50% 计算速度提升2倍[23] - 功耗降至FP16的1/4 显著降低带宽需求[23] - 该格式使国产芯片算力效率首次逼近英伟达缩小代际差距[25] - 目前英伟达H100等芯片已支持FP8 国产芯片多停留在FP16/BF16阶段[24]

Deepseek发布V3.1 为何火的却是官方留言？

环球网资讯· 2025-08-23 13:26

DeepSeek-V3.1技术升级 - 公司正式推出DeepSeek-V3.1 在混合推理架构、思考效率和Agent能力方面全面升级 [1] - 官方补充说明UE8M0 FP8技术针对下一代国产芯片设计 [1] 资本市场反应 - DeepSeek官方留言引发连锁反应寒武纪和海光信息等企业股价短期内上涨 [3] - 市场普遍认为FP8技术优化将推动国产芯片在AI训练和推理场景下的性能提升并扩大市场份额 [3] FP8技术特性 - FP8是8位浮点数格式能在几乎不损失模型精度情况下大幅提升计算速度并降低功耗 [3] - 该格式尤其适用于大规模神经网络训练和推理场景 [3] 国内芯片产业现状 - 目前国内仅极少数GPU厂商支持FP8 如摩尔线程旗舰产品MTT S5000是国内首批原生支持FP8并大规模量产的GPU [3] - 摩尔线程MUSA架构原生支持硬件FP8张量加速计算相对传统FP16计算可实现两倍浮点算力提升 [3] UE8M0 FP8技术价值 - 该技术通过对FP8格式深度优化为下一代国产芯片提供底层支持 [4] - 通过减少数据存储和传输耗损显著提升芯片吞吐量和能效比 [4] - 进一步强化国产AI芯片在国内外市场的竞争力 [4] 行业技术趋势 - 英伟达和AMD等国际巨头纷纷布局FP8 该格式有望成为下一代AI训练和推理的通用标准 [5] - DeepSeek此时推出UE8M0 FP8技术意味着中国企业在标准制定阶段已深度参与可能影响全球技术路线走向 [5] 软硬件协同发展 - 公司从AI算法向芯片技术延伸体现软件定义硬件趋势 [5] - 优秀软件栈和算法优化能力正成为提升硬件性能的关键因素 [5]

算力股、芯片股都疯了！DeepSeek一句话让国产芯片集体暴涨！

是说芯语· 2025-08-22 15:49

DeepSeek V3.1发布及UE8M0 FP8技术影响 - DeepSeek V3.1发布采用UE8M0 FP8参数精度引发市场广泛关注[1][31] - 官方透露新架构及下一代国产芯片信息信息量巨大但表述简短[1][32] 国产芯片股价表现 - 寒武纪股价收盘上涨20% 总市值跃居科创板头名[2][24] - 半导体ETF全天大涨10% 代码512480 SH收报1 311元单日上涨0 110元[3] - 芯片产业链集体走强科创50指数大涨3%创近三年半新高[26] - 多只半导体成分股显著上涨包括海光信息+20% 中芯国际+14 19% 澜起科技+8 70% 兆易创新+10%[3][4] UE8M0 FP8技术解析 - UE8M0 FP8为MXFP8格式的缩放因子配置由Open Compute Project在2023年定义[7][8] - UE8M0中U代表无符号 E8M0表示8bit全部分配给指数位无尾数和符号位[13][14] - 该格式优势包括处理器复原数据时只需移动指数位无需浮点乘法或舍入逻辑缩短时钟关键路径[16] - 动态范围覆盖2^−127至2^128 解决单尺度FP8无法兼顾大小值的问题减少信息损失[17] - 块级缩放使32个FP8数据仅追加8bit缩放因子相比FP32缩放节省75%流量[21] 国产芯片厂商适配进展 - 寒武纪MLU370 S4 思元590及690系列芯片均支持FP8计算架构设计领先[24] - 摩尔线程MTT S5000 GPU 芯原VIP9000 NPU等2025H2新品支持原生FP8或Block FP8[20] - 华为昇腾910B/C暂不支持原生FP8 但官方路线图显示2025Q4将支持[25] - 海光深算三号DCU 沐曦曦云C600 中昊芯英刹那TPU均支持FP8精度计算[30] - 首批通过DeepSeek大模型适配测试的厂商包括中国电信华为寒武纪昆仑芯海光沐瞳中昊芯英中科加禾[23] 行业生态与竞争影响 - UE8M0 FP8提升国产芯片性价比同等硬件可运行更大模型减少对英伟达 AMD等国外算力依赖[27][28] - DeepSeek通过精度格式改动主动贴合国产芯片性能点推动软硬协同生态建设[29] - 技术优化方向与国产芯片带宽限制（HBM LPPDDR）形成互补成为下一代架构重要优化路径[21] - 市场解读为国产AI进入软硬协同阶段国产芯片厂商竞争力提升[27][29]

究竟会花落谁家？DeepSeek最新大模型瞄准了下一代国产AI芯片

机器之心· 2025-08-22 12:01

DeepSeek V3.1 模型性能提升 - 采用全新混合推理架构，支持思考与非思考两种模式，在工具使用、编程、搜索等智能体任务上表现大幅提升 [1] - 在Aider多语言编程基准测试中得分超越Anthropic Claude 4 Opus，同时具备显著成本优势 [1] - SWE-bench Verified基准测试得分66.0，较前代V3-0324的45.4提升45.4% [2] - SWE-bench基准测试得分54.5，较前代V3-0324的29.3提升86.0% [2] - Terminal-Bench基准测试得分31.3，较前代V3-0324的13.3提升135.3% [2] - 通过思维链压缩训练，在任务表现持平情况下token消耗量减少20-50%，有效成本与GPT-5 mini相当 [2] UE8M0 FP8技术创新 - 采用UE8M0 FP8缩放浮点格式，参数量达685B，专为下一代国产芯片设计 [5][7] - UE8M0采用无符号设计，8bit全部用于指数位，覆盖极大正数范围，适合处理梯度、激活值等跨数量级数据 [8][9] - 兼容微缩放浮点格式，通过外部缩放因子补偿精度，实现低比特宽度存储和快速计算 [8][9] - FP8格式仅占1字节内存，较FP16节省50%存储空间，在百亿/千亿参数规模下节省显著 [10] - NVIDIA Hopper GPU的FP8 Tensor Core吞吐量达FP16的两倍 [10] 国产AI芯片生态布局 - UE8M0 FP8格式针对华为昇腾、寒武纪等国产AI芯片优化 [9][15] - 华为HiFloat8方案采用单一格式+锥形精度思路，兼顾精度和范围，覆盖正向反向传播 [9] - DeepSeek明确否认V3.1使用国产芯片训练，但UE8M0机制为国产推理芯片优化铺平道路 [13][14] - 未来国产开源大模型可能针对华为昇腾、寒武纪芯片实现专门优化并大规模应用 [15]

FP8

UE8M0 FP8

Artificial Intelligence

Artificial Intelligence

DeepSeek V3.1

HiFloat8 （HiF8）

DeepSeek正式发布新模型，还透露国产AI芯片关键信息

选股宝· 2025-08-22 07:22

DeepSeek-V3.1技术升级与国产AI芯片发展 - DeepSeek-V3.1版本采用UE8M0 FP8 Scale参数精度专为下一代国产芯片设计 [1] - FP8为AI计算前沿低精度格式在支持原生FP8的GPU上可大幅提高算力并显著降低显存占用由英伟达、Arm和英特尔于2022年联合提出 [1] 国产GPU发展现状与厂商进展 - 国产GPU进入快速发展阶段从可用进入好用阶段寒武纪、海光信息及华为等厂商领先 [1] - 摩尔线程新一代GPU采用平湖架构增加FP8精度支持大幅提升AI算力可支撑万卡集群智算中心解决方案 [1] - 沐曦提供训推一体C系列GPU 具大规模并行计算能力已在多个智算中心规模化应用另提供面向生成式AI推理的N系列GPU 拥有多精度混合算力 [2] GPU市场规模预测与国产算力趋势 - 全球GPU市场规模预计2029年达36119.74亿元中国市场规模达13635.78亿元占比从2024年30.8%提升至2029年37.8% [2] - DeepSeek带动AI应用向终端扩散需要高性价比专用芯片国内芯片厂商与应用端企业加速对接预计2025年国产算力大规模起量 [2] 相关上市公司梳理 - A股算力芯片龙头包括寒武纪与海光信息 [3] - 华为昇腾产业链涉及拓维信息、神州数码及华丰科技 [4] - DeepSeek-V3.1升级支持混合推理架构提升工具使用与智能体任务表现相关公司包括鼎捷数智、泛微网络及酷特智能 [4][5]

Seek .(US:SKLTY)

Artificial Intelligence

Artificial Intelligence