算子优化 - 财报，业绩电话会，研报，新闻

算子优化

搜索文档

雷峰网· 2025-05-23 18:01

华为算子技术重新定义硬件性能 - 公司发布三项硬件亲和算子技术研究：AMLA、融合算子优化、SMTurbo，旨在提升大模型推理速度与能效 [2][3] - 算子被描述为AI大模型的"原子级工具"，通过标准化设计、硬件深度适配与复用机制放大芯片性能 [2] - 技术开源标志着算子优化的"终极形态"，可显著提升芯片处理海量数据的能力 [2] AMLA技术突破 - 通过数学等价变化重构浮点运算，将复杂乘法转换为加法，算力利用率最高达71% [3][4][6] - 采用浮点数二进制编码重解析技术，实现存内计算变量更新，减少数据搬运 [6] - 当前Attention算子平均算力利用率55%，优于FlashMLA公开结果 [6] 融合算子优化技术 - 基于三大设计原理：硬件单元并行度优化、冗余数据搬运消除、数学等价重构计算流 [9] - 通过指令级流水编排实现计算耗时相互掩盖，构建高速缓存直通数据通道 [9] - 在DeepSeek V3/R1大模型实践中实现大幅性能提升 [9] SMTurbo低延迟通信 - 支持384卡规模原生Load/Store语义，跨卡延迟进入亚微秒级 [11] - SMTurbo-CPP技术并行读写方向，提升昇腾芯片每线程访存吞吐20%以上 [12] - 共享内存集合通信成为稀疏模型推理的关键能力 [11] 技术未来发展方向 - AMLA将扩展至KVCache量化和全量化场景的MLA算子优化 [14] - 融合算子技术将探索更多模型架构应用，推动大语言模型高效推理 [14] - Load/Store优化将结合业务流水设计，在大BatchSize场景实现收益 [14] 相关技术进展 - FlashComm技术实现模型推理"单车道变多车道" [17] - 超大规模MoE模型推理优化技术MTP调度提速10倍 [18] - OmniPlacement技术提升昇腾推理系统吞吐10% [19]

以加代乘？华为数学家出手，昇腾算子的高能设计与优化，性能提升30%！

机器之心· 2025-05-23 12:17

大模型推理优化技术核心观点 - 大语言模型(LLM)面临推理成本高、性能冗余等难题，亟需提升速度与能效 [2] - 华为基于昇腾算力发布三项硬件亲和算子技术，实现推理速度与能效双重突破 [2][4][7][9] - 技术通过数学重构、硬件深度适配和多卡协同优化，推动行业向"数学创新+架构感知+硬件亲和"协同演进 [12] 技术全景 AMLA算子 - 通过二进制重解析将乘法转为加法运算，算力利用率最高达71%，优于FlashMLA的67% [4][5] - 基于存内计算减少数据搬运，Attention算子性能提升30%以上，平均算力利用率55% [4][5] - 未来将扩展至KV Cache量化和全量化场景 [12] 融合算子优化 - 三大设计原理：硬件单元并行优化、冗余数据搬运消除、数学等价重构计算流 [7] - 实现跨硬件单元算子融合，中间结果全程驻留高速缓存 [7] - 计划在更多模型架构上应用，推动昇腾硬件高效推理 [12] SMTurbo技术 - 支持384卡原生Load/Store语义，跨卡延迟低至亚微秒级 [9][10] - 通过并行读写设计提升访存吞吐20%以上，优化同步开销 [10] - 未来将结合业务流水设计，在大BatchSize场景实现收益 [12]

大语言模型推理

算子优化

Telecommunications Equipment

Telecommunications Equipment

昇腾芯片

CloudMatrix 384

与 00 后开源者聊 DeepSeek 开源周：一直开源最强模型，可能是不想赚钱，也可能是想推动更大变化丨开源对话#2

晚点LatePost· 2025-02-27 22:03

开源策略与趋势 - DeepSeek宣布"开源周"计划，连续5天开源5个代码库，包括训练与推理工具，比技术报告和模型权重更深度[5] - 开源正成为行业趋势，部分原闭源公司开始发布首批开源模型，OpenAI CEO称"不开源是站在历史错误一边"[5] - DeepSeek通过详细技术报告（如V3达50多页）建立行业声誉，V3作为基座模型涵盖预训练、微调等完整流程[13][15][17] 开源技术层次 - 大模型开源分为四个层次：技术报告、模型权重（HuggingFace发布）、推理框架（如vLLM）、训练框架（如字节Verl）[19][26] - vLLM推理框架GitHub星数近4万，有840多位贡献者，基于PagedAttention论文优化[20][25] - 训练框架开源较少，因涉及复杂代码规范，字节开源的Verl框架支持强化学习算法如PPO和分布式策略[26][27] 工程优化与效率 - DeepSeek创新聚焦效率提升：V3采用多令牌预测、FP8低精度训练、优化流水线并行减少闲置计算单元[40] - FlashMLA开源项目实现算子层优化，类似FlashAttention通过GPU指令重组提升矩阵运算效率[45][46][48] - 工程实现难度高，如在线训练需同时处理生成与模型更新，对底层框架能力要求极高[49][50][51] 商业考量与行业影响 - 开源策略差异源于商业模式：非盈利机构Ai2开源最强模型+数据集，商业公司可能保留核心模型[54][56] - 开源可能重构行业生态，成为技术标准，但未来AI能力极强时开源最强模型或引发滥用风险[55][59] - 公司转向开源需额外投入：代码规范（如阿里代码规约）、适配外部框架（如ESFT适配耗时一周多）[36][34][35] 社区与开发者价值 - GitHub社区活跃度可通过星数（vLLM近4万）、Issues数（数千）、PR数（数百）衡量[20][25] - 开源项目需持续维护，如DeepSeek计划整合5个库功能并修复潜在bug[52] - 开发者诉求多样，包括支持FP8精度、NPU芯片适配等，反映实际应用场景需求[52]

大模型开源

算子优化

Artificial Intelligence

Artificial Intelligence

DeepSeek-R1

DeepSeek-V3

FlashMLA