华为的三个黑科技,要颠覆AI计算?
虎嗅APP·2025-05-23 19:47
大模型技术发展现状 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为作为智能基础设施提供商,通过数学算法和工程积累为DeepSeek提升效率及用户体验,探索差异化技术路径 [1] - 虎嗅推出《华为技术披露集》系列,首次全面披露超大规模MoE模型推理部署技术细节,旨在推动昇腾生态发展 [1] 昇腾算子优化技术 - 算子是AI大模型的核心计算单元,华为开源三大硬件亲和算子技术(AMLA、融合算子、SMTurbo),实现效率与能效双重突破 [3][4][5] - AMLA通过数学重构将乘法转为加法运算,算力利用率提升至71%,优于FlashMLA公开结果 [7][9] - 融合算子优化实现硬件资源协同调度,通过并行度优化、冗余数据消除和数学重构,显著提升模型推理性能 [11][12] - SMTurbo技术实现384卡内存共享,跨卡访存延迟降至亚微秒级,访存吞吐提升20%以上 [14] 技术应用与未来方向 - AMLA技术将扩展至KVCache量化和全量化场景,进一步拓宽应用范围 [17] - 融合算子优化将探索更多模型架构适配,推动大语言模型在昇腾硬件的高效推理 [17] - SMTurbo将结合业务场景优化流水设计,在DeepSeek dispatch与combine场景中实现大BatchSize收益 [17] 行业影响与案例 - 华为与DeepSeek合作的技术方案在推理性能上表现优异,引发行业关注 [20][22] - 华为通过技术创新解决大模型推理效率瓶颈,推动行业突破"服务器繁忙"等体验问题 [22][23]