Workflow
低精度计算
icon
搜索文档
“中国计划提高三倍产量,降低依赖英伟达”
观察者网· 2025-08-28 11:01
中国AI芯片产能扩张 - 中国芯片制造商计划2025年将全国AI处理器总产量扩大至当前三倍 以加速降低对英伟达芯片依赖 [1] - 一家专为国内头部企业生产AI处理器的晶圆厂最快2024年底投产 另有两家工厂预计2026年投入运营 [1] 技术标准与适配进展 - 中国企业加紧研发适配DeepSeek倡导标准的下一代AI芯片 使用UE8M0 FP8参数精度 [1] - FP8是一种8位浮点数格式 精准切合高效低功耗计算需求 引发低精度计算现象级热潮 [2] - 国产芯片虽技术代际落后英伟达高端产品 但低精度计算方式有望帮助中国AI企业与国际竞争对手抗衡 [2] 产业链协同效应 - 国产芯片与国产AI模型深度适配被称作"深度求索时刻" 需计算芯片制造商与存储、连接硬件厂商及软件工具开发商多年合作 [3] - 中国存储器龙头企业测试新产品 仅比英伟达芯片所用最先进存储产品落后一代 [4] 政策支持与生态建设 - 国务院明确实施"人工智能+"行动 推动AI与经济社会各领域深度融合 [4] - 中国AI产业发展需要生态系统支持 需有人站在发展前沿 [4] 美国技术封锁与市场影响 - 美国2022年10月实施芯片出口限制 后续不断收紧 阻止英伟达、AMD、英特尔在华销售最先进芯片 [5] - 英伟达曾为中国市场开发定制H20芯片 但2024年4月被特朗普政府禁止销售 导致取消客户订单并放弃台积电预定产能 [5] - H20芯片基于Hopper架构 拥有CoWoS先进封装技术 适用于垂类模型训练和推理 整体性能略高于910B [5] 地缘政治博弈与市场动态 - 特朗普政府2024年7月初允许英伟达重新对华销售H20芯片 [7] - 英伟达同意向美国政府缴纳在华销售芯片收入的15% 以换取出口许可证 [7] - 中国要求本土企业避免使用H20芯片于政府或国家安全相关工作 但未要求停止采购 [7] - 英伟达正为中国开发新型AI芯片B30A 基于Blackwell架构 性能强于H20芯片 [8] 安全与合规问题 - 国家网信办2024年7月31日约谈英伟达 要求就H20芯片漏洞后门安全风险问题进行说明并提交证明材料 [7]
DeepSeek掷出FP8骰子
第一财经资讯· 2025-08-26 14:45
芯片与AI算力指数表现 - 芯片指数(884160.WI)近一个月涨19.5%,AI算力指数(8841678.WI)近一个月涨22.47% [2] - 指数走高反映AI算力需求剧增与国产替代加速趋势 [2] FP8低精度计算技术发展 - FP8为8位浮点数格式,内存占用仅为FP16的0.5倍,传输效率提升2倍,硬件算力提升2倍 [8] - 英伟达2022年首次将FP8写入产品路线图,2023年OCP发布MXFP8规范解决训练稳定性问题 [5][6] - DeepSeek 2024年通过V3模型跑通MXFP8,推动低精度计算在AI训练中的应用 [7] 低精度计算的行业驱动因素 - 大模型推理对低精度计算需求极大,可缓解硬件压力与HBM瓶颈问题 [10] - 低精度量化有效应对计算量大、存储不足和数据传输慢三大问题 [9] - 混合精度训练框架(如FP32/FP16/FP8多精度架构)显著提升训练效率 [9] 国产算力产业进展 - 中国AI加速卡国产份额从2023年不足15%提升至2025年上半年40%以上,预计年底过半 [14] - 国产算力产业链完成"融资-研发-场景落地"正向循环,独立于海外生态 [14] - 工信部计划到2026年建立算力互联互通标准体系,2028年实现全国公共算力互联 [9] 低精度计算的技术边界与应用 - 精度低于FP4可能导致数据失真,FP4可能是当前技术极限 [13] - FP8在矩阵乘法中表现优异,但累加等操作仍需高精度支持 [13] - 低精度主要应用于推理场景,训练和微调仍需FP16/FP32保障精度 [13] 行业生态与标准化进展 - 软件栈平台(如CUDA、PyTorch)逐步原生支持FP8算子 [5] - InfiniBand网络需支持FP8格式高效传输以实现跨节点训练优化 [13] - 低精度计算趋势从训练端向推理端渗透,推动芯片厂商调整技术路线 [9]
DeepSeek掷出FP8骰子
第一财经· 2025-08-26 14:34
芯片与AI算力指数表现 - 芯片指数(884160 WI)午盘涨002% 近一个月涨195% [3] - AI算力指数(8841678 WI)午盘涨145% 近一个月涨2247% [3] DeepSeek-V31技术突破 - DeepSeek发布V31版本 采用UE8M0 FP8 Scale参数精度 针对下一代国产芯片设计 [3] - FP8为8位浮点数格式 遵循IEEE 754规范 相比FP16内存占用减半至05倍 传输效率与硬件算力提升至2倍 [10] - 低精度量化可同时应对计算量大、储存不足和数据传输慢问题 [12] FP8技术发展历程 - 英伟达2022年9月在GTC大会首次将FP8写入产品路线图 H100 GPU原生支持FP8 [8] - 2023年OCP发布《MX规范》第一版 通过块缩放将FP8包装为可落地的MXFP8 [8] - 2024年12月DeepSeek通过V3模型跑通MXFP8 吸引行业关注 [9] - 行业从FP16向FP8演进 因万卡集群与推理爆发导致成本、功耗、显存成为核心问题 [9] 国产芯片市占率与政策支持 - 2025年第二季度国产芯片市占率提升至387% [12] - 工信部《算力互联互通行动计划》提出2026年建立算力互联互通标准体系 2028年实现全国公共算力标准化互联 [12] - 中国AI加速卡国产份额从2023年不足15%升至2025年上半年超40% 预计年底过半 [17] 低精度计算的优势与局限 - FP8在矩阵乘法中表现优异 但累加或特定函数计算仍需高精度支持 [15] - 低精度浮点技术缓解硬件需求压力与HBM瓶颈 减少算力需求、内存容量及带宽要求 降低芯片功耗 [13] - 精度低于FP4时数据可能失真 FP4可能是技术极限 训练与微调仍需FP16/FP32高精度 [15] - 精度替换只能部分进行 敏感环节需保留高精度计算 [16] 行业应用与未来趋势 - FP8推动算力厂商调整技术路线 多精度混合架构可同时运行FP32/FP16/FP8任务 训练效率显著提升 [12] - 低精度计算提升大语言模型效率 改善多模态领域如AI视频生成与世界模型的响应速度 [17] - 国产算力产业链完成融资-研发-场景落地正向循环 走出独立于海外生态的可持续路径 [17]
DeepSeek掷出FP8骰子:一场关于效率、成本与自主可控的算力博弈
第一财经· 2025-08-26 13:47
国产算力产业链独立发展路径 - 国产算力产业链正稳步走出一条独立于海外生态的可持续路径 [1][13] 市场表现与指数变化 - 芯片指数(884160.WI)探底回升,午盘涨0.02%,近一个月涨19.5% [2] - AI算力指数(8841678.WI)热度延续,午盘涨1.45%,近一个月涨22.47% [2] DeepSeek技术升级与行业影响 - DeepSeek发布DeepSeek-V3.1,使用UE8M0 FP8 Scale参数精度,针对下一代国产芯片设计 [2] - DeepSeek通过V3模型跑通MXFP8,在复杂AI训练任务中高效发挥作用 [7] - DeepSeek采用DualPipe并行算法,将跨节点MoE训练的通信开销降至接近零 [12] FP8技术发展历程 - FP8是一种8位浮点数格式,遵循IEEE 754规范 [5] - 英伟达在2022年9月GTC大会上首次将FP8写入产品路线图,H100 GPU原生支持FP8 [6] - 2023年OCP发布《MX规范》第一版本,通过"块缩放"将FP8包装为可大规模落地的MXFP8 [6] - 2024年行业出现万卡集群、推理爆发,FP8因省显存、省电费、速度快等价值被更多厂商关注 [7] 低精度计算的优势与挑战 - 低精度量化能有效应对计算量大、储存不足和数据传输慢问题 [9] - FP8在矩阵乘法等操作中表现优异,但在累加或特定函数计算中仍需高精度支持 [12] - 低精度并非无限追求,当精度低于FP4时数据可能失真,FP4可能是技术极限 [12] - 精度替换只能部分进行,精度敏感环节仍需保留高精度计算 [13] 国产芯片市占率与政策支持 - 2025年第二季度国产芯片市占率提升至38.7% [9] - 工信部印发《算力互联互通行动计划》,提出到2026年建立完备的算力互联互通标准体系 [9] - 中国AI加速卡国产份额由2023年不足15%提升至2025年上半年40%以上,预计年底将过半 [13] 行业趋势与厂商布局 - AI投资主线从"有没有GPU"的"囤卡"策略倾斜到"省不省算力"的效率路线 [7] - 多精度混合架构可同时运行FP32、FP16与FP8任务,训练效率较传统方案显著提升 [10] - 低精度浮点技术缓解硬件需求压力与HBM瓶颈问题,减少芯片功耗 [10] - 低精度计算催生更大、能力更强的模型,支持更长token序列并提供更快响应 [13]