Workflow
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
机器之心·2025-05-23 12:17

大模型推理优化技术 核心观点 - 大语言模型(LLM)面临推理成本高、性能冗余等难题,亟需提升速度与能效 [2] - 华为基于昇腾算力发布三项硬件亲和算子技术,实现推理速度与能效双重突破 [2][4][7][9] - 技术通过数学重构、硬件深度适配和多卡协同优化,推动行业向"数学创新+架构感知+硬件亲和"协同演进 [12] 技术全景 AMLA算子 - 通过二进制重解析将乘法转为加法运算,算力利用率最高达71%,优于FlashMLA的67% [4][5] - 基于存内计算减少数据搬运,Attention算子性能提升30%以上,平均算力利用率55% [4][5] - 未来将扩展至KV Cache量化和全量化场景 [12] 融合算子优化 - 三大设计原理:硬件单元并行优化、冗余数据搬运消除、数学等价重构计算流 [7] - 实现跨硬件单元算子融合,中间结果全程驻留高速缓存 [7] - 计划在更多模型架构上应用,推动昇腾硬件高效推理 [12] SMTurbo技术 - 支持384卡原生Load/Store语义,跨卡延迟低至亚微秒级 [9][10] - 通过并行读写设计提升访存吞吐20%以上,优化同步开销 [10] - 未来将结合业务流水设计,在大BatchSize场景实现收益 [12]