大模型推理
搜索文档
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 14:42
SGLang 开源推理引擎发展现状 - 截至2025年6月 GitHub Stars达15K 月均下载量突破10万次 [1] - 已被xAI Microsoft Azure NVIDIA AMD LinkedIn 美团等行业巨头采用 [1] - 成为DeepSeek R1官方推荐推理引擎 并实现首个完全开源的大规模专家并行部署方案 [1] 核心技术优势 - 采用PD分离架构控制尾延迟 推测解码提升Token生成速度 KV缓存落盘优化显存 [2] - 实现RadixAttention Overlap Scheduling等高效架构设计 复现PD分离 大规模EP等前沿技术 [3] - 支持离线批处理最大化GPU利用率 线上推理优先保障Token生成速度的差异化部署策略 [4] 并行部署技术挑战 - 专家并行实现中面临通讯与Prefill/Decode传输KV缓存的时间重叠问题 [4] - 网卡资源争抢 CPU负载过大 Python GIL锁释放不及时等工程挑战突出 [4] 社区生态建设 - 开源模式吸引广泛参与 技术分享增强社区认同感 [5] - 超过100k显卡规模的工业部署经验反哺技术演进 [5] 关键技术解析 - PD分离使Decode延迟均匀稳定 允许采用不同并行策略提升资源利用率 [6] - 推测解码通过隐藏层信息一次预测多个Token 显著提升Decode速度 [6] - KV缓存落盘将历史上下文存储至大容量设备 避免重复Prefill计算 [6] 部署实践洞察 - 参数配置调试是影响上线效率的关键环节 需精细化优化而非依赖"开箱即用" [7] - 模型规模持续扩大背景下 多GPU与高效并行策略是实现高性价比部署的必经之路 [7] 行业活动预告 - AICon全球人工智能开发与应用大会将深入解析大模型推理关键技术 [2][7] - 聚焦AI Agent构建 多模态应用 大模型推理优化等前沿议题 [7]
大模型推理,得讲性价比
虎嗅APP· 2025-06-06 18:10
华为MoE架构技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,大幅降低计算开销,在SuperCLUE千亿内模型并列国内第一[3] - 通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化,Pangu Pro MoE推理性能提升6~8倍[3] - 在昇腾300I Duo上单卡吞吐可达321 tokens/s,在昇腾800I A2上更可飙升至1528 tokens/s[3] 分层混合并行(H2P)优化 - 提出创新性的H2P分层混合并行策略,根据任务特性"分工开小会",让每个部分在各自的通信域内高效执行[6] - Attention模块采用DP2+TP4并行方案,Expert模块采用TP2+EP4策略,共享专家以TP8全芯并行[6] - 相比纯TP方案,Decode吞吐性能提升33.1%[7] 通信瓶颈优化(TopoComm) - 提出SlimRing算法合并相邻通信步的后同步与前同步操作,同步次数降低35%[10] - 提出NHD算法通过拓扑亲和的分级通信等效提高链路有效带宽21%[10] - 引入INT8 AllGather + FP16 Reduce-Scatter混合量化通信策略,实现通信数据压缩25%,AllGather通信耗时降低39%[10] 计算&通信融合(DuoStream) - 提出DuoStream算子级多流融合通算优化方案,实现计算与通信的细粒度并发调度[11] - 构建GMMRS与AGMM两大融合策略,克服通信与数据搬运和计算之间的瓶颈[11] - 显著提升模型在昇腾平台上的推理效率,最大化释放硬件资源潜能[11] 融合算子优化 - 打造MulAttention和SwiftGMM两支精锐融合算子特种部队[16] - MulAttention实现Attention计算加速4.5倍,达成89%以上的数据搬运流水占用率[17] - SwiftGMM实现GMM计算加速2.1倍,解码阶段整网推理时延降低48.7%[20] 推理算法加速 - 提出专家动态剪枝算法PreMoE,实现推理吞吐提升10%+[25] - 提出TrimR反思压缩算法,推理步数降低14%[27] - 提出SpecReason反思投机算法,推理吞吐提升30%[27] 昇腾平台性能表现 - 昇腾800I A2平台在BS=456时单卡吞吐达1148 tokens/s,较72B和32B稠密模型分别提升97%和18%[30] - 结合MTP投机推理技术,单卡BS可提升至146,最高吞吐突破1528 tokens/s[30] - 昇腾300I Duo平台在BS=128时单卡吞吐最高达321 tokens/s,提供更具性价比的MoE推理解决方案[32]
MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
机器之心· 2025-06-06 17:36
混合专家模型技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,显著降低计算开销并在SuperCLUE千亿内模型评测中并列国内第一 [2] - 通过软硬协同优化实现推理性能提升6~8倍,昇腾300I Duo单卡吞吐达321 tokens/s,昇腾800I A2单卡吞吐飙升至1528 tokens/s [3] - 采用分层混合并行(HP)策略,Decode吞吐性能相比纯TP方案提升33.1%,通过模块化分工优化通信效率 [5][6][7] 通信与计算协同优化 - 提出TopoComm优化方案,同步次数降低35%,链路有效带宽提高21%,通信数据压缩25%,AllGather通信耗时降低39% [9] - 开发DuoStream多流融合方案,实现计算与通信细粒度并发调度,解决Expert模块通信瓶颈 [12] - 构建GMMRS与AGMM融合策略,关键通信路径流水掩盖,显著提升硬件资源利用率 [12] 高性能算子创新 - 开发MulAttention融合算子,Attention计算加速4.5倍,数据搬运流水占用率89%,访存带宽利用率87% [16] - 推出SwiftGMM矩阵计算引擎,GMM计算加速2.1倍,解码阶段整网推理时延降低48.7% [18] - 算子优化实现KV缓存搬运效率提升,路由专家权重搬运瓶颈突破 [15][16][18] 推理算法创新 - 专家动态剪枝算法PreMoE保持模型准确率同时提升推理吞吐10%+ [21] - TrimR反思压缩算法通过小模型监测大模型思考过程,推理步数降低14% [22] - SpecReason反思投机算法结合大小模型优势,推理吞吐提升30% [22] 昇腾平台性能表现 - 昇腾800I A2平台4卡部署下,大并发场景单卡吞吐1148 tokens/s,较72B/32B稠密模型提升97%/18%,MTP技术下最高吞吐达1528 tokens/s [24] - 昇腾300I Duo平台4卡部署实现小并发延迟50ms,大并发单卡吞吐201 tokens/s,MTP技术下吞吐最高321 tokens/s,提供高性价比解决方案 [26] - 预填充阶段2卡2路并发实现2k序列输入延迟1.94s,单卡吞吐1055 tokens/s [26]
中移齐鲁创新院发布“迅测”工具:助力国产芯片选型效率跃升
齐鲁晚报· 2025-06-06 16:15
行业趋势 - 大模型推理成本持续下降和国产芯片快速发展推动政务、金融、医疗等数据敏感行业加速推进推理模型国产化本地部署 [1] - 国产智算芯片型号众多、性能差异显著,高效准确压测模型推理性能成为筛选高性能低成本芯片的关键挑战 [1] 技术创新 - 中移齐鲁创新院自主研发"迅测"芯片推理性能自动压测工具,创新构建"配置即测试"压测模式并集成数据自动解析能力 [1] - "迅测"工具单轮测试人工值守时长从平均8小时降至0.5小时,数据整理耗时减少70%,整体芯片选型效率提升3倍 [1] - 工具核心技术亮点包括基于vLLM的智能自动压测和压测数据自动汇总及可视化分析 [3] 技术细节 - 通过智能调度vLLM引擎实现一键化操作,用户仅需设定并发请求量即可自动执行多轮压力测试 [3] - 支持本地和宿主机远程两种压测模式,适配不同芯片的单节点或多节点部署需求 [3] - 采用标准化数据存储机制自动计算生成错误率、单路输出速度等核心性能指标,确保跨平台测试结果可比性 [3] - 内嵌数据可视化引擎直观呈现芯片性能差异,自动化日志解析技术解决海量日志人工汇总痛点 [3] 应用成果 - 已完成DeepSeek系列大模型在天数智芯、华为昇腾、壁仞科技、瀚博半导体等主流国产计算平台上的推理性能测试 [3] - 生成精细化对比报告包含多项关键参数对比矩阵,为国产大模型推理芯片选型提供重要参考依据 [3]
算力产业近况解读
2025-05-25 23:31
纪要涉及的行业和公司 - **行业**:算力产业、GPU 行业 - **公司**:英伟达、华为、阿里巴巴、百度、腾讯、字节跳动、寒武纪、昆仑芯、韩 5G、海光、火山引擎、智谱、讯飞 纪要提到的核心观点和论据 市场需求与前景 - **全球和国内 GPU 市场需求持续增长**:中国因贸易摩擦,依赖国产或降配版进口芯片;国际上美国生成式多模态及 AGI 技术发展、其他地区推进大模型行业落地带动算力需求[1][3] - **未来两年存在两种情景**:贸易摩擦加剧,国产芯片需求增加;关系缓和,降配版进口芯片推动多模态应用发展,无论哪种情景算力需求都增加[3] 英伟达产品情况 - **英伟达 H20 不受青睐**:降配后性能优势减少、利润下降,头部互联网公司或云服务企业倾向选择性价比更高的国产芯片,国产卡逐渐占据更多市场份额[1][4][5] - **英伟达在中国市场 GPU 卡性价比降低**:预计 2025 年再推降配版 H20 难获大量订单,仅个别急需公司可能购买[5] - **国内公司倾向 B20 而非 H20**:H20 性能下降严重,无法满足多模态推理和 agent 应用需求;B20 架构并行速度和卡间协作更佳,单机内和集群内表现损耗小[1][11] - **B 系列降配版能满足禁令要求**:H 系列因物理架构限制,缩减显存和降低计算频率会使集群表现大幅下降;B 系列架构处理好,配置低时表现损耗小[12] 国产芯片情况 - **华为升腾系列有进展但存在不足**:升腾 910C 通过 3D 空间式设计提升单机架内算力约 25%,但缺乏 Nvlink 导致数据传输速度受限[6] - **韩 5G 芯片有突破但表现欠佳**:实现单片参数技术突破,但在组网及复杂计算中表现欠佳,高可用性材料有差距[6] - **国产芯片需补足多方面**:软硬件结合能力不足、产能问题(如寒武纪无训练卡生产能力)、良品率低,导致显存、传输速度、更新迭代及产能分布存在不足[20] 国内互联网巨头自研芯片情况 - **阿里巴巴**:通过平头哥系列服务于阿里云,用于降低成本、硬件加速和 IoT 场景[7] - **百度**:通过昆仑芯推进大模型推理商业化,与飞桨开发框架适配,实现自主可控[7] - **腾讯和字节跳动**:集中于视频解码、加速及神经网络训练等领域,字节跳动还尝试与台积电合作研发高性能多模态推理芯片[7] 应用场景与算力投入 - **推理场景资源消耗接近训练场景**:2025 年多模态推理场景资源消耗与训练相差无几,特定场景推理成本超训练成本,预计 2026 年互联网公司算力投入向推理倾斜[1][8][9] - **公有云需求未显著增长**:中小企业接入大模型 API 或构建 agent 较少,市场以头部公司自有业务为主导,社会面日常 TOKEN 消耗量相对较低[10] 市场供应与租赁挑战 - **高性能计算芯片供应情况**:英伟达 H20 大部分被头部公司购买,A100 和 A800 应用场景有限,H100 和 H800 价格昂贵,小型企业难以负担,且头部公司考虑数据安全不轻易选择外部集群[17] - **企业租赁高性能芯片面临挑战**:大规模预训练需显卡集中,推理环节需求无法分散,高性能芯片大规模使用存在市场供应量和技术困难,零星或大规模租赁不可行[2][19] 多模态技术市场情况 - **多模态技术占领市场概率高**:2024 - 2025 年末市场规模预计增长 15 - 20 倍,火山引擎大模型有效 tokens 部分来自公有云供中小企业使用[14] 其他重要但可能被忽略的内容 - **字节跳动租赁情况**:租赁 IDC 和机房存放芯片,年初租赁算力用于抖音和豆包相关功能加速,为临时性非大规模租用 GPU[15][16] - **腾讯 GPU 采购困难**:今年一季度疯狂购买 GPU,二三月难买到,四月底五月甚至考虑向字节跳动购买,反映国内市场优质 GPU 资源争夺激烈且供不应求[22] - **非上市公司芯片情况**:昆仑芯推理效果优异,集群版每秒可处理 4000 多个 tokens,单机版能处理三四十个 tokens,P 系列推理优化后集群表现优于华为 910B;韩 5G 芯片带宽传输有瓶颈、耗电量大;海光少量采购组网测试,测试质量难保证[23][24] - **全球 GPU 市场格局及资本开支**:2025 年资本开支增长迅速,2026 年预计下降至 50%以下;字节跳动和阿里巴巴算力采购总量可能降至 80%左右,腾讯增加采购量,百度需求与今年持平但推理侧需求增加;若政策支持,百度将增加昆仑芯产能或进口芯片;2026 年华为生成芯片产能约 85 万,可能被国央企优先购买[25]
华为的三个黑科技,要颠覆AI计算?
虎嗅APP· 2025-05-23 19:47
大模型技术发展现状 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为作为智能基础设施提供商,通过数学算法和工程积累为DeepSeek提升效率及用户体验,探索差异化技术路径 [1] - 虎嗅推出《华为技术披露集》系列,首次全面披露超大规模MoE模型推理部署技术细节,旨在推动昇腾生态发展 [1] 昇腾算子优化技术 - 算子是AI大模型的核心计算单元,华为开源三大硬件亲和算子技术(AMLA、融合算子、SMTurbo),实现效率与能效双重突破 [3][4][5] - AMLA通过数学重构将乘法转为加法运算,算力利用率提升至71%,优于FlashMLA公开结果 [7][9] - 融合算子优化实现硬件资源协同调度,通过并行度优化、冗余数据消除和数学重构,显著提升模型推理性能 [11][12] - SMTurbo技术实现384卡内存共享,跨卡访存延迟降至亚微秒级,访存吞吐提升20%以上 [14] 技术应用与未来方向 - AMLA技术将扩展至KVCache量化和全量化场景,进一步拓宽应用范围 [17] - 融合算子优化将探索更多模型架构适配,推动大语言模型在昇腾硬件的高效推理 [17] - SMTurbo将结合业务场景优化流水设计,在DeepSeek dispatch与combine场景中实现大BatchSize收益 [17] 行业影响与案例 - 华为与DeepSeek合作的技术方案在推理性能上表现优异,引发行业关注 [20][22] - 华为通过技术创新解决大模型推理效率瓶颈,推动行业突破"服务器繁忙"等体验问题 [22][23]
大模型推理,不再是“一根筋”
虎嗅APP· 2025-05-22 19:41
大模型推理技术发展 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为通过数学算法和工程积累为DeepSeek提升效率及用户体验,采用差异化技术路径 [1] - 大语言模型参数规模呈指数级增长,部署形态从单卡演进到多卡集群,MoE模型需数百卡集群支持 [2] 集合通信操作核心机制 - 集合通信操作(如AllReduce、All-Gather、Reduce-Scatter、All-To-All)是大模型多节点协作的关键桥梁 [2][3][4] - AllReduce用于梯度汇总与参数更新,All-Gather实现数据全局共享,Reduce-Scatter分摊计算压力 [3] - 不同并行策略(TP、DP、EP)依赖特定通信操作:TP需All-to-All交换张量片段,DP用AllReduce同步梯度,EP依赖广播传递中间结果 [4][5] 通信技术瓶颈与挑战 - MoE模型参数突破千亿级,专家数量增长导致通信带宽需求呈平方级增长,引发网络拥塞 [7] - 传统AllReduce在大并发场景下效率不足,且后续计算操作(如RMSNorm)加剧时延 [7][8] - TP并行方案中AllReduce操作占推理时延较高,跨节点带宽限制进一步劣化性能 [8] 华为FlashComm技术创新 - **多流并行技术**:拆解MoE计算流程为三股并行流(专家计算/门控决策/数据传输),实现Prefill阶段提速10%,Decode吞吐提升25-30% [12][13] - **AllReduce革新**:采用ReduceScatter+AllGather组合,结合INT8量化使通信量降35%,Prefill性能提升22-26% [15] - **维度压缩技术**:通过矩阵乘法并行维度调整,通信量减少86%,整体推理速度提升33% [17] 技术方案总结与展望 - FlashComm技术通过通信算子优化降低数据量及时延,FlashComm2优化张量并行通信,FlashComm3提升计算并行度 [21] - 未来研究方向包括EP多流并行、权重自动预取、模型自动多流并行等 [21] - 华为技术方案在DeepSeek模型部署中实现显著性能提升,对比传统方案具有竞争优势 [23]
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 18:25
大模型推理通信优化技术 核心观点 - 华为团队推出FlashComm系列技术,通过数学方法重构集合通信操作,解决大模型推理中的通信瓶颈问题,显著提升性能[10][17] - 三项关键技术分别针对AllReduce优化、计算通信平衡和多流并行,在DeepSeek等模型上实现22%-33%的性能提升[7][11][14][15] - MoE架构的扩展使通信复杂度呈平方级增长,传统方案如AllReduce在多节点部署中面临带宽限制和时延问题[6][8] 技术细节 集合通信基础 - 全量规约(AllReduce)用于梯度汇总,全量收集(All-Gather)实现数据聚合,规约散射(Reduce-Scatter)分摊计算压力[3] - 张量并行(TP)依赖All-to-All交换张量片段,数据并行(DP)需AllReduce同步梯度,专家并行(EP)需广播传递中间结果[4] 通信挑战 - MoE模型参数突破千亿级,专家路由与数据分发导致通信带宽需求呈平方级增长[6] - TP方案中AllReduce操作占端到端推理时延的30%以上,跨节点带宽限制加剧时延[6][8] 解决方案 - **FlashComm1**:拆解AllReduce为ReduceScatter+AllGather,插入INT8量化使通信量降35%,计算量减至1/8,DeepSeek模型Prefill性能提升26%[7][11] - **FlashComm2**:重构矩阵乘法并行维度,通信量降86%,整体推理速度提升33%[7][14] - **FlashComm3**:实现MoE五大模块三流并行,Decode吞吐提升30%,多卡并行释放2GB内存[15] 行业影响 - 昇腾硬件通过多流引擎支持计算通信重叠,构建大模型推理全栈生态[17][18] - 未来方向包括权重自动预取、模型自动多流并行等,持续优化超大规模EP架构[17]
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 12:13
大模型推理通信优化技术 核心观点 - 华为推出FlashComm系列技术,通过数学重构和硬件协同优化,解决大模型推理中的通信瓶颈问题,显著提升推理性能 [2][7][10] - 集合通信操作(如AllReduce、All-Gather)是大模型多节点协作的关键桥梁,但传统方案在MoE等大规模场景下存在效率缺陷 [3][4][6] - 通信优化技术使DeepSeek模型Prefill阶段性能提升22-26%,Decode阶段提升14-30%,Llama3.1-70B模型也有显著加速 [11][14][15] 技术细节 通信挑战 - MoE模型参数突破千亿级别,专家路由与数据聚合导致通信带宽需求呈平方级增长,网络拥塞风险加剧 [6] - 传统AllReduce在多节点部署中跨节点带宽受限,端到端推理时延占比过高 [6][8] - TP并行方案中卡间权重切分虽降低单卡负载,但AllReduce操作仍造成显著时延 [6] 解决方案 **FlashComm1** - 将AllReduce拆解为ReduceScatter+AllGather两阶段,中间插入数据投影降维和INT8量化,通信量降低35%,关键计算量减少至1/8 [11] - DeepSeek模型Prefill推理性能提升22-26%,Llama3.1-70B Decode阶段提升14% [11] **FlashComm2** - 重构矩阵乘法并行维度,将三维张量压缩为二维矩阵,配合INT8量化使注意力机制通信量下降86% [14] - DeepSeek模型整体推理速度提升33% [14] **FlashComm3** - 对MoE模型五大模块(激活通信、门控决策等)进行数学重构,利用昇腾多流引擎实现三股计算流并行 [15] - 腾出2GB内存空间,DeepSeek模型Prefill提速超10%,Decode吞吐增加25-30% [15] 行业影响 - 华为昇腾构建面向大模型推理的全栈生态体系,未来将聚焦超大规模EP下的多流并行、权重自动预取等技术 [17][18] - 技术方案已应用于DeepSeek V3/R1等MoE模型,参数规模达千亿级别,推动行业解决Scaling Law下的通信瓶颈 [6][16]
推理性能PK,华为+DeepSeek>英伟达?
虎嗅APP· 2025-05-19 21:47
大模型推理部署技术突破 - 华为通过"数学补物理"创新思路突破硬件瓶颈,实现昇腾超大规模MoE模型推理部署性能全面超越英伟达Hopper架构 [1][3] - 关键技术包括等价数学变换、FlashComm通算优化、四流并发掩盖、加法代乘法昇腾MLA实现等,算力利用率获极致提升 [3] - 相关核心技术代码将在1个月内陆续开源,体现公司建设开放生态的决心 [4] 超大MoE模型部署挑战 - DeepSeek V3代表6710亿参数混合专家架构新趋势,需硬件集群支持"满血版"部署 [6] - 模型含58个MoE层14906个专家(单个专家权重44MB),对内存效率、分布式并行设计提出极高要求 [7] - 多头隐式注意力机制(MLA)等创新架构导致中间变量膨胀,向量计算占比增加带来新优化挑战 [7] 昇腾硬件部署方案 - **CloudMatrix 384超节点**:采用144卡EP并行部署,实现50ms时延下单卡Decode吞吐1920 Tokens/s,通信耗时降低关键瓶颈 [12] - **Atlas 800I A2服务器**:2节点16卡Prefill+4节点32卡Decode部署,100ms时延下单卡吞吐达723-808 Tokens/s [15] - 采用PD分离部署、A8W8C16量化策略(INT8+BF16)、动态负载均衡等关键技术 [9][10][18] 推理框架优化技术 - API Server水平扩容结合全异步处理提升QPS,MoE动态负载均衡技术显著改善性能 [18] - FusionSpec投机推理引擎实现流程拼接与轻量步间准备,适配高吞吐场景 [19] - FlashComm通信方案降低Prefill阶段25%通信量,层内并行转换技术减少71%节点内通信 [20][21] 模型侧性能优化 - 计算通信并发技术使DeepSeek V3大并发场景Decode性能提升15% [22] - 通信通信并发机制掩盖量化scale开销,通信权重预取提升MLA计算性能10% [23][24] - 细粒度分级流水算法优化Allgather/ReduceScatter算子集群执行效率 [31] 昇腾亲和算子创新 - AMLA算法重构Attention算子,性能提升近1倍,算力利用率达60% [25][26] - MLAProlog算子深度融合前序计算,性能提升30%以上 [26][28] - MoeDistributeDispatch/Combine通算融合算子减少同步开销,SMTurbo-CPP技术优化小数据传输 [29][30] 商业化落地成果 - 硅基流动联合华为云基于CloudMatrix 384上线DeepSeek-R1服务,单卡吞吐1920 Tokens/s比肩H100部署性能 [31] - 技术方案通过主流测试集验证,模型精度与官方版本保持一致 [31] - 全链路优化实现国产硬件高效部署,激活本土AI生态协同创新 [33]