Workflow
融合算子优化
icon
搜索文档
华为的三个黑科技,要颠覆AI计算?
虎嗅APP· 2025-05-23 19:47
HUAWEI X HUXIU AMLA × 融合算子 × SMTurbo 让大模型推理速度与能效双重革命 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深 厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 近期,虎嗅将打造《华为技术披露集》系列内容,全面揭秘超大规模MoE模型推理部署技 术,通过一连串的技术报告,首次全面披露技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.5 :昇腾亲和 它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与 复用机制,让芯片处理海量数据时如虎添翼。 而昇腾此次开源的三大技术,正是算子优化的 "终极形态" ...
算芯合一!华为披露昇腾体系大模型核心算子设计细节
雷峰网· 2025-05-23 18:01
" 算力利用率突破 70%、跨卡延迟低至亚微秒级,华为算子技术 如何重新定义硬件性能? " 作者丨李希 AMLA × 融合算子 × SMTurbo —— 让大模型推理速度与能效双重革命 基于昇腾算力,华为团队本次发布了三项重要的硬件亲和算子技术研究: 针对Decode阶段的MLA 计算,华为团队提出了AMLA(Ascend MLA)算子,通过数学等价变化和硬件 亲和的深度优化, 释放昇腾芯片澎湃算力 。具体而言,通过 对浮点数二进制编码的重解析 ,把复杂的乘 法运算变成简单的加法操作,AMLA实现了基于 存内计算 的变量更新,充分利用算力的同时减少数据搬 运;结合一系列基于昇腾硬件的计算流程及流水优化手段,进一步提升算子的整体性能。当前AMLA算法 的Attention 算子充分发挥昇腾硬件的计算能力,平均算力利用率达到55%,最高可达71%,优于 FlashMLA公开的结果。 大模型推理的 "乐高积木":算子为何如此重要? 算子是 AI 大模型执行计算的 "原子级工具",如同乐高积木中的基础模块,负责从加减乘除到特征提取的 一切核心操作。它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、 ...