Workflow
混合精度训练
icon
搜索文档
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
智通财经网· 2025-08-24 15:48
公司动态 - DeepSeek宣布新一代模型DeepSeek-V3.1采用UE8M0 FP8 Scale参数精度 该精度标准针对下一代国产芯片设计 [1] - 消息引发资本市场强烈反应 寒武纪等芯片类上市企业股价集体拉升 [1] - 在2025算力大会上 FP8精度标准被讨论 但业内人士情绪较资本市场更为审慎 [1] 技术解析 - FP8将数据宽度压缩至8位 相比FP32的4字节传输量 FP8仅需1字节 算力效率翻倍 同时降低网络带宽通信量和存储要求 [2] - 在相同功耗下 AI芯片可训练更大模型或缩短训练时间 [2] - 低精度训练推理易因数值范围太小导致计算出错 不同计算对精度要求不同 矩阵乘法对精度不敏感可用FP8 累加或某些函数需较高精度 [3] - 业内通常采用混合精度训练 根据计算类型动态选择不同精度 兼顾效率与准确 [3] 行业影响 - DeepSeek-V3.1使用UE8M0 FP8 Scale参数精度 被视为国产AI芯片即将迈入新阶段的信号 [4] - FP8代表算力优化正确方向 大模型训练推理不只是堆砌硬件 但并非灵丹妙药 需关注实际落地效果 [4] - 大模型对精度容忍度越来越高 从FP32到FP16再到FP8是行业逐步验证路径 DeepSeek验证FP8在大规模模型可行性 [4] - 精度标准变化需上下游厂商联动优化 国产算力生态需同步升级 包括芯片、框架、算力平台到应用层闭环适配 [4] - 摩尔线程已提前布局FP8研究 作为技术储备并在生态调整中占据主动 [4] 发展挑战 - 大模型训练推理核心瓶颈包括能耗、稳定性和集群利用 需解决效率与容错问题 确保集群可靠性 [5] - 国内万卡规模集群已有部署 但需向大智算集群演进 简单堆卡不能完全满足需求 提高单卡效率与集群调度优化同样关键 [5]
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
财联社· 2025-08-24 12:34
文章核心观点 - DeepSeek-V3.1采用UE8M0 FP8 Scale参数精度 引发资本市场对国产AI芯片企业的关注 寒武纪等公司股价大幅上涨[1][4] - FP8精度标准被视为国产算力生态升级的关键方向 但产业界对其实际落地效果持审慎态度[1][4] - FP8技术通过降低数据宽度至8位提升算力效率并减少通信开销 但需通过混合精度训练平衡效率与准确性[2][3] FP8技术特性与优势 - FP8将数据宽度压缩至8位 相比FP32(32位浮点数)和FP16(16位浮点数)进一步减少存储和通信开销[2] - FP8使算力效率翻倍 传输FP8数值仅需1字节(原FP32需4字节) 单位时间内传输信息量增加且存储要求降低[2] - 在相同功耗下 AI芯片可训练更大模型或缩短训练时间[2] FP8技术挑战与局限性 - FP8低精度训练易因数值范围太小导致计算出错 需根据计算类型动态选择精度[3] - 矩阵乘法等操作对精度不敏感可用FP8 但累加或某些函数需较高精度 需采用混合精度训练兼顾效率与准确[3] 国产算力生态发展 - DeepSeek验证FP8在大规模模型上的可行性 为国产算力厂商提供发展机会[4] - 精度标准变化需芯片、框架、算力平台到应用层闭环适配 国产算力生态需同步升级[5] - 大模型训练核心瓶颈包括能耗、稳定性和集群利用 需提高单卡效率与集群调度优化而非简单堆砌硬件[5] 行业趋势与方向 - 大模型对精度容忍度逐步提高 从FP32到FP16再到FP8是行业验证过的技术路径[4] - FP8代表算力优化正确方向 未来可能在FP8标准乃至更高精度上进行研究或训练[4]
一文读懂,可重构芯片为何是AI的完美搭档
半导体行业观察· 2025-03-24 09:23
AI算法演进与芯片设计挑战 - AI算法从早期简单机器学习发展到复杂深度学习和Transformer模型,应用场景从边缘端(如智能安防、家居)扩展到云端(如数据中心分析、语音交互)[1] - 边缘端需高能效处理实时图像识别等任务,云端需大算力支持海量数据处理,AI芯片性能直接决定应用效果[1] - 传统固定架构芯片难以满足AI算法多样化需求,存在硬件性能瓶颈[1] 神经网络模型特征 - **拓扑结构复杂性**:从简单卷积层发展到ResNet残差连接、注意力机制等动态结构,特斯拉2023年展示的神经网络模拟人脑连接[2] - **多维稀疏性**:从一维权重稀疏性(剪枝)发展到输入/权重/输出的三维稀疏性,跳过0值计算可减少30%-50%无效操作[3][6] - **动态精度需求**:推理阶段从统一INT8量化发展为分层/元素级混合精度;训练阶段FP32/FP16向FP8混合精度过渡,NVIDIA H100 GPU采用FP8+FP16混合加速Transformer训练[5] 硬件重构技术优势 - **对比软件编程**:硬件重构可动态适应不同拓扑/稀疏性/精度,处理稀疏矩阵时效率提升50%以上,而软件编程难以优化0值计算[8][11] - **芯片级重构**:通过BENES网络处理稀疏性,清微智能TX5-TX8系列硬件利用率提升50%+,乱序计算减少内存访问[9] - **PEA级重构**:整体重构支持顺序执行,交错重构支持多任务并行,硬件利用率达80%(GPU仅50%)[10][12] - **PE级重构**:位串行(低功耗)、位融合(高速度)、浮点融合(混合精度训练)等技术针对不同场景优化,如边缘端采用位串行,云端使用位融合[12] 可重构芯片应用前景 - 三级重构(芯片/阵列/PE)综合解决"存储墙"问题,提升能效和面积利用率,清微智能TX8系列实现中间数据直接传递,减少访存能耗[13][14] - 行业应用覆盖智能安防、机器人、智算中心及大模型市场,清微智能已量产TX5/TX8系列十余款芯片,斯坦福背景的SambaNova Systems成为2023年AI芯片估值最高独角兽[15]