Workflow
算子优化
icon
搜索文档
算芯合一!华为披露昇腾体系大模型核心算子设计细节
雷峰网· 2025-05-23 18:01
华为算子技术重新定义硬件性能 - 公司发布三项硬件亲和算子技术研究:AMLA、融合算子优化、SMTurbo,旨在提升大模型推理速度与能效 [2][3] - 算子被描述为AI大模型的"原子级工具",通过标准化设计、硬件深度适配与复用机制放大芯片性能 [2] - 技术开源标志着算子优化的"终极形态",可显著提升芯片处理海量数据的能力 [2] AMLA技术突破 - 通过数学等价变化重构浮点运算,将复杂乘法转换为加法,算力利用率最高达71% [3][4][6] - 采用浮点数二进制编码重解析技术,实现存内计算变量更新,减少数据搬运 [6] - 当前Attention算子平均算力利用率55%,优于FlashMLA公开结果 [6] 融合算子优化技术 - 基于三大设计原理:硬件单元并行度优化、冗余数据搬运消除、数学等价重构计算流 [9] - 通过指令级流水编排实现计算耗时相互掩盖,构建高速缓存直通数据通道 [9] - 在DeepSeek V3/R1大模型实践中实现大幅性能提升 [9] SMTurbo低延迟通信 - 支持384卡规模原生Load/Store语义,跨卡延迟进入亚微秒级 [11] - SMTurbo-CPP技术并行读写方向,提升昇腾芯片每线程访存吞吐20%以上 [12] - 共享内存集合通信成为稀疏模型推理的关键能力 [11] 技术未来发展方向 - AMLA将扩展至KVCache量化和全量化场景的MLA算子优化 [14] - 融合算子技术将探索更多模型架构应用,推动大语言模型高效推理 [14] - Load/Store优化将结合业务流水设计,在大BatchSize场景实现收益 [14] 相关技术进展 - FlashComm技术实现模型推理"单车道变多车道" [17] - 超大规模MoE模型推理优化技术MTP调度提速10倍 [18] - OmniPlacement技术提升昇腾推理系统吞吐10% [19]
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
机器之心· 2025-05-23 12:17
大模型推理优化技术 核心观点 - 大语言模型(LLM)面临推理成本高、性能冗余等难题,亟需提升速度与能效 [2] - 华为基于昇腾算力发布三项硬件亲和算子技术,实现推理速度与能效双重突破 [2][4][7][9] - 技术通过数学重构、硬件深度适配和多卡协同优化,推动行业向"数学创新+架构感知+硬件亲和"协同演进 [12] 技术全景 AMLA算子 - 通过二进制重解析将乘法转为加法运算,算力利用率最高达71%,优于FlashMLA的67% [4][5] - 基于存内计算减少数据搬运,Attention算子性能提升30%以上,平均算力利用率55% [4][5] - 未来将扩展至KV Cache量化和全量化场景 [12] 融合算子优化 - 三大设计原理:硬件单元并行优化、冗余数据搬运消除、数学等价重构计算流 [7] - 实现跨硬件单元算子融合,中间结果全程驻留高速缓存 [7] - 计划在更多模型架构上应用,推动昇腾硬件高效推理 [12] SMTurbo技术 - 支持384卡原生Load/Store语义,跨卡延迟低至亚微秒级 [9][10] - 通过并行读写设计提升访存吞吐20%以上,优化同步开销 [10] - 未来将结合业务流水设计,在大BatchSize场景实现收益 [12]
与 00 后开源者聊 DeepSeek 开源周:一直开源最强模型,可能是不想赚钱,也可能是想推动更大变化丨开源对话#2
晚点LatePost· 2025-02-27 22:03
开源策略与趋势 - DeepSeek宣布"开源周"计划,连续5天开源5个代码库,包括训练与推理工具,比技术报告和模型权重更深度[5] - 开源正成为行业趋势,部分原闭源公司开始发布首批开源模型,OpenAI CEO称"不开源是站在历史错误一边"[5] - DeepSeek通过详细技术报告(如V3达50多页)建立行业声誉,V3作为基座模型涵盖预训练、微调等完整流程[13][15][17] 开源技术层次 - 大模型开源分为四个层次:技术报告、模型权重(HuggingFace发布)、推理框架(如vLLM)、训练框架(如字节Verl)[19][26] - vLLM推理框架GitHub星数近4万,有840多位贡献者,基于PagedAttention论文优化[20][25] - 训练框架开源较少,因涉及复杂代码规范,字节开源的Verl框架支持强化学习算法如PPO和分布式策略[26][27] 工程优化与效率 - DeepSeek创新聚焦效率提升:V3采用多令牌预测、FP8低精度训练、优化流水线并行减少闲置计算单元[40] - FlashMLA开源项目实现算子层优化,类似FlashAttention通过GPU指令重组提升矩阵运算效率[45][46][48] - 工程实现难度高,如在线训练需同时处理生成与模型更新,对底层框架能力要求极高[49][50][51] 商业考量与行业影响 - 开源策略差异源于商业模式:非盈利机构Ai2开源最强模型+数据集,商业公司可能保留核心模型[54][56] - 开源可能重构行业生态,成为技术标准,但未来AI能力极强时开源最强模型或引发滥用风险[55][59] - 公司转向开源需额外投入:代码规范(如阿里代码规约)、适配外部框架(如ESFT适配耗时一周多)[36][34][35] 社区与开发者价值 - GitHub社区活跃度可通过星数(vLLM近4万)、Issues数(数千)、PR数(数百)衡量[20][25] - 开源项目需持续维护,如DeepSeek计划整合5个库功能并修复潜在bug[52] - 开发者诉求多样,包括支持FP8精度、NPU芯片适配等,反映实际应用场景需求[52]