大模型推理

搜索文档
华为的三个黑科技,要颠覆AI计算?
虎嗅APP· 2025-05-23 19:47
大模型技术发展现状 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为作为智能基础设施提供商,通过数学算法和工程积累为DeepSeek提升效率及用户体验,探索差异化技术路径 [1] - 虎嗅推出《华为技术披露集》系列,首次全面披露超大规模MoE模型推理部署技术细节,旨在推动昇腾生态发展 [1] 昇腾算子优化技术 - 算子是AI大模型的核心计算单元,华为开源三大硬件亲和算子技术(AMLA、融合算子、SMTurbo),实现效率与能效双重突破 [3][4][5] - AMLA通过数学重构将乘法转为加法运算,算力利用率提升至71%,优于FlashMLA公开结果 [7][9] - 融合算子优化实现硬件资源协同调度,通过并行度优化、冗余数据消除和数学重构,显著提升模型推理性能 [11][12] - SMTurbo技术实现384卡内存共享,跨卡访存延迟降至亚微秒级,访存吞吐提升20%以上 [14] 技术应用与未来方向 - AMLA技术将扩展至KVCache量化和全量化场景,进一步拓宽应用范围 [17] - 融合算子优化将探索更多模型架构适配,推动大语言模型在昇腾硬件的高效推理 [17] - SMTurbo将结合业务场景优化流水设计,在DeepSeek dispatch与combine场景中实现大BatchSize收益 [17] 行业影响与案例 - 华为与DeepSeek合作的技术方案在推理性能上表现优异,引发行业关注 [20][22] - 华为通过技术创新解决大模型推理效率瓶颈,推动行业突破"服务器繁忙"等体验问题 [22][23]
大模型推理,不再是“一根筋”
虎嗅APP· 2025-05-22 19:41
大模型推理技术发展 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为通过数学算法和工程积累为DeepSeek提升效率及用户体验,采用差异化技术路径 [1] - 大语言模型参数规模呈指数级增长,部署形态从单卡演进到多卡集群,MoE模型需数百卡集群支持 [2] 集合通信操作核心机制 - 集合通信操作(如AllReduce、All-Gather、Reduce-Scatter、All-To-All)是大模型多节点协作的关键桥梁 [2][3][4] - AllReduce用于梯度汇总与参数更新,All-Gather实现数据全局共享,Reduce-Scatter分摊计算压力 [3] - 不同并行策略(TP、DP、EP)依赖特定通信操作:TP需All-to-All交换张量片段,DP用AllReduce同步梯度,EP依赖广播传递中间结果 [4][5] 通信技术瓶颈与挑战 - MoE模型参数突破千亿级,专家数量增长导致通信带宽需求呈平方级增长,引发网络拥塞 [7] - 传统AllReduce在大并发场景下效率不足,且后续计算操作(如RMSNorm)加剧时延 [7][8] - TP并行方案中AllReduce操作占推理时延较高,跨节点带宽限制进一步劣化性能 [8] 华为FlashComm技术创新 - **多流并行技术**:拆解MoE计算流程为三股并行流(专家计算/门控决策/数据传输),实现Prefill阶段提速10%,Decode吞吐提升25-30% [12][13] - **AllReduce革新**:采用ReduceScatter+AllGather组合,结合INT8量化使通信量降35%,Prefill性能提升22-26% [15] - **维度压缩技术**:通过矩阵乘法并行维度调整,通信量减少86%,整体推理速度提升33% [17] 技术方案总结与展望 - FlashComm技术通过通信算子优化降低数据量及时延,FlashComm2优化张量并行通信,FlashComm3提升计算并行度 [21] - 未来研究方向包括EP多流并行、权重自动预取、模型自动多流并行等 [21] - 华为技术方案在DeepSeek模型部署中实现显著性能提升,对比传统方案具有竞争优势 [23]
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 18:25
大模型推理通信优化技术 核心观点 - 华为团队推出FlashComm系列技术,通过数学方法重构集合通信操作,解决大模型推理中的通信瓶颈问题,显著提升性能[10][17] - 三项关键技术分别针对AllReduce优化、计算通信平衡和多流并行,在DeepSeek等模型上实现22%-33%的性能提升[7][11][14][15] - MoE架构的扩展使通信复杂度呈平方级增长,传统方案如AllReduce在多节点部署中面临带宽限制和时延问题[6][8] 技术细节 集合通信基础 - 全量规约(AllReduce)用于梯度汇总,全量收集(All-Gather)实现数据聚合,规约散射(Reduce-Scatter)分摊计算压力[3] - 张量并行(TP)依赖All-to-All交换张量片段,数据并行(DP)需AllReduce同步梯度,专家并行(EP)需广播传递中间结果[4] 通信挑战 - MoE模型参数突破千亿级,专家路由与数据分发导致通信带宽需求呈平方级增长[6] - TP方案中AllReduce操作占端到端推理时延的30%以上,跨节点带宽限制加剧时延[6][8] 解决方案 - **FlashComm1**:拆解AllReduce为ReduceScatter+AllGather,插入INT8量化使通信量降35%,计算量减至1/8,DeepSeek模型Prefill性能提升26%[7][11] - **FlashComm2**:重构矩阵乘法并行维度,通信量降86%,整体推理速度提升33%[7][14] - **FlashComm3**:实现MoE五大模块三流并行,Decode吞吐提升30%,多卡并行释放2GB内存[15] 行业影响 - 昇腾硬件通过多流引擎支持计算通信重叠,构建大模型推理全栈生态[17][18] - 未来方向包括权重自动预取、模型自动多流并行等,持续优化超大规模EP架构[17]
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 12:13
大模型推理通信优化技术 核心观点 - 华为推出FlashComm系列技术,通过数学重构和硬件协同优化,解决大模型推理中的通信瓶颈问题,显著提升推理性能 [2][7][10] - 集合通信操作(如AllReduce、All-Gather)是大模型多节点协作的关键桥梁,但传统方案在MoE等大规模场景下存在效率缺陷 [3][4][6] - 通信优化技术使DeepSeek模型Prefill阶段性能提升22-26%,Decode阶段提升14-30%,Llama3.1-70B模型也有显著加速 [11][14][15] 技术细节 通信挑战 - MoE模型参数突破千亿级别,专家路由与数据聚合导致通信带宽需求呈平方级增长,网络拥塞风险加剧 [6] - 传统AllReduce在多节点部署中跨节点带宽受限,端到端推理时延占比过高 [6][8] - TP并行方案中卡间权重切分虽降低单卡负载,但AllReduce操作仍造成显著时延 [6] 解决方案 **FlashComm1** - 将AllReduce拆解为ReduceScatter+AllGather两阶段,中间插入数据投影降维和INT8量化,通信量降低35%,关键计算量减少至1/8 [11] - DeepSeek模型Prefill推理性能提升22-26%,Llama3.1-70B Decode阶段提升14% [11] **FlashComm2** - 重构矩阵乘法并行维度,将三维张量压缩为二维矩阵,配合INT8量化使注意力机制通信量下降86% [14] - DeepSeek模型整体推理速度提升33% [14] **FlashComm3** - 对MoE模型五大模块(激活通信、门控决策等)进行数学重构,利用昇腾多流引擎实现三股计算流并行 [15] - 腾出2GB内存空间,DeepSeek模型Prefill提速超10%,Decode吞吐增加25-30% [15] 行业影响 - 华为昇腾构建面向大模型推理的全栈生态体系,未来将聚焦超大规模EP下的多流并行、权重自动预取等技术 [17][18] - 技术方案已应用于DeepSeek V3/R1等MoE模型,参数规模达千亿级别,推动行业解决Scaling Law下的通信瓶颈 [6][16]
推理性能PK,华为+DeepSeek>英伟达?
虎嗅APP· 2025-05-19 21:47
虎嗅注: "大模型江湖,落地为王。"这句话的含金量还在提升。随着DeepSeek V3/R1在春节期间一夜爆火, 基于超大规模MoE(Mixture of Experts)架构的大模型正在从训练开发转向推理应用的落地。 对于MoE推理部署来说,效率一直是一个痛点。谁能将部署计算效率提升至最高,才能真正获得大 模型商业成功。但受限于庞大的模型容量与计算需求,传统部署方案通常依赖于多张数据中心级 GPU(如H20)。你我都知道,英伟达不仅贵,而且不断受到地缘政治摩擦的影响,不断降低自己的 性能来满足监管需求。 而在最近,华为全面揭秘超大规模MoE模型推理部署技术,不仅实现了国产的进一步突破,更全面 超越了基于英伟达Hopper架构的推理部署性能。 他们是怎么做到的? 数学补物理,极致提升计算效率 "数学补物理",这种通过数学理论、工具、算法和建模等方式,来弥补硬件和工艺的局限性,实现最 大化发挥芯片和系统能力效果。华为轮值董事长孟晚舟曾在2025年新年致辞中提到: "华为十多个实验室与伙伴们的工程师组成"大杂烩"团队,面对天成AI集群系统和单芯片性能的严峻 工程挑战,他们创造性应用数学补物理、非摩尔补摩尔、系统补 ...
不到15万元!清华90后团队发布“褐蚁”一体机,已支持阿里最新Qwen3模型|钛媒体AGI
钛媒体APP· 2025-04-30 23:09
行云集成电路创始人、CEO季宇 4月30日消息,钛媒体AGI获悉,清华90后创立的北京行云集成电路有限公司(简称"行云集成电路") 宣布,推出全新的一体机产品"褐蚁",仅需最高15万元就可以跑满血版DeepSeek R1/V3大模型,并且对 话速度达到了20token/s。 今天下午,行云集成电路创始人、CEO季宇对钛媒体AGI表示,目前"褐蚁"一体机已经支持阿里最新发 布的Qwen3系列开源大模型,包括顶配版Qwen3-235B-A22B。 具体来说,"褐蚁"一体机有三款不同的配置:最高性价比的"超大杯"褐蚁HY90,搭载双路AMD EPYC 9355服务器、24条 48G 6400M频率内存和NV 5090D计算卡,支持FP8、INT4两种数据精度,在FP8精度 下跑满血版DS能达到21token/s的对话速度,在INT4精度下则能达到28token/s,最高支持128K的上下 文,售价14.9万元;此外,行云集成电路还将推出"大杯"褐蚁HY70、"中杯"褐蚁HY50两个配置版本。 | 型号 | 福盛 HY90 | 褐蚁 HY70 | 褐蚁 HY50 | | --- | --- | --- | --- | ...
14.9万元,满血流畅运行DeepSeek一体机抱回家!清华90后初创出品
量子位· 2025-04-29 12:18
产品性能与定价 - 褐蚁HY90一体机搭载671B参数FP8精度原版DeepSeek模型,价格降至14.9万元级别,较传统百万级设备成本降低一个数量级[1][5][19][31] - 推理速度达22 tokens/s,优于DeepSeek官网表现,数学题等复杂任务仍保持20+ tokens/s[4][10][16] - 采用双路AMD 9005系列CPU+消费级GPU异构架构,1TB/s高内存带宽突破"内存墙",硬件成本控制在10万元内[24][25] 技术架构与创新 - 自主研发推理引擎框架,FP8精度下Decode阶段速度稳定20+TPS,128K上下文仍保持15TPS,16K上下文首字延迟≤80秒[26][27] - 支持INT4量化技术,Decode速度提升至28TPS(1K上下文),预留1.5T参数模型扩展能力[26][28] - 通过参数压缩与算法优化,实现满血FP8精度模型部署,未来将支持MoE类模型[27][29] 公司背景与团队 - 创始人季宇为清华90后博士,CCF优博奖得主,曾任华为昇腾AI芯片编译器专家,入选"天才少年"计划[6][35][38][39] - CTO余洪敏为中科院博士,主导过百度昆仑芯、华为车载昇腾芯片等10余款芯片流片与量产[40][41][42] - 获智谱AI、峰瑞资本等明星机构投资,成立两年即实现技术突破[42][43][44] 行业影响 - 改写行业格局,将满血671B模型部署成本从百万级降至10万元级,同类低配方案价格区间原为20-40万元[31][32] - 推动大模型在智能客服、数据分析等场景的普惠应用,为中小团队提供高扩展性AI部署方案[32][33]
天翼云CPU实例部署DeepSeek-R1模型最佳实践
量子位· 2025-03-03 15:58
英特尔至强处理器在AI推理领域的优势 - 英特尔至强处理器通过AMX加速器显著提升大模型推理性能,在DeepSeek 7B蒸馏模型上实现超过9token/s的生成速率 [12] - 至强6处理器支持T级超大内存,可高效部署DeepSeek-R1 671B满血版模型,单实例单socket部署下达到9.7~10 token/s吞吐量 [13] - CPU方案在GPU资源不足或利用率低的场景下更具成本优势,资源划分粒度更小且硬件获取门槛更低 [7] 天翼云部署实践 - 提供一键部署云主机镜像,内置DeepSeek-R1-Distill-Qwen-7B模型、vLLM推理框架及open-webui前端,5分钟内自动启动服务 [4][5] - 镜像预配置vLLM API接口,支持通过8000端口直接调用模型服务,并可通过修改API_KEY增强安全性 [9] - 测试环境采用24vcpu/64GB内存配置,AMX加速后实现30-60输入token与256输出token的高效处理 [10] 大模型CPU部署性能表现 - DeepSeek-R1 671B满血版在至强6980P处理器(128核)上通过llama.cpp优化实现9.7~10 TPS,双实例部署总吞吐达14.7 TPS [32][33] - 采用Q4_K_M量化版本模型(404.43GB)平衡性能与存储成本,社区同时提供Q8_0(713.29GB)等高精度选项 [26][27] - 通过numactl绑定CPU核心与内存节点、Intel oneAPI编译器优化等技术手段最大化硬件利用率 [32] 英特尔处理器技术升级 - 第五代至强处理器(Emerald Rapids)AI推理性能较前代提升42%,大语言模型场景加速达1.5倍,TCO降低77% [16] - 至强6处理器(Granite Rapids)支持DDR5-6400内存与MRDIMM技术,内存带宽提升至2.3倍,三级缓存达504MB [17][18] - AMX加速器新增FP16支持,配合AVX-512等指令集形成完整AI软件生态,兼容主流开源框架 [18][19] 行业应用价值 - CPU方案有效解决GPU显存不足问题,适用于医疗、金融、零售等需快速接入大模型能力的行业 [2] - MOE结构参数稀疏化特性与CPU计算特点契合,降低算力需求的同时保持模型性能 [14] - xFasterTransformer框架支持多节点分布式部署,兼容vLLM等主流Serving框架,加速大模型应用落地 [20]
两台运行“满血版”DeepSeek,第四范式推出大模型推理一体机解决方案SageOne IA
IPO早知道· 2025-02-28 12:11
大模型应用成本降低 - 第四范式推出大模型推理一体机解决方案SageOne IA,显著降低大模型推理成本,满血版DeepSeek V3/R1仅需两台一体机即可使用 [2] - 解决方案集成智能算力池化技术,支持主流大模型如DeepSeek V3/R1、QWen2.5、LLama3.3,GPU利用率提升30%以上,推理性能平均提升5-10倍 [2] SageOne IA核心优势 智能算力池化 - 通过第四范式GPU资源池化(vGPU)技术,实现算力和显存智能切分及任务调度,GPU利用率提升30%以上 [4] - 支持多任务共享存储及处理优化,推理性能平均提升5-10倍,具备千卡级别分布式调度与管理能力 [4] 集成大模型工具链 - 开发平台包含数百个开放模型服务及全生命周期管理工具,支持可视化workflow编排和Agent智能体框架 [5] - 开发周期普遍缩短95%以上,企业开发者可数周内搭建生成式AI应用 [5] 内置AI应用套件 - 预装AIGC、智能办公、数字员工等丰富AI应用套件,支持主流大模型按需选择 [6] - 提供开箱即用的AI工具如模型仓库、智能体Agent平台等,加速企业AI落地 [6] 公司业绩与产品动态 - 第四范式前三季度营收同比增长26.1%,超40款AI产品推动长期增长 [11] - 先知AIOS 5.1新增GPU资源池化能力,算力资源利用率进一步提高 [11] - Q1核心业务收入增长84.8%,行业大模型规模效应显著 [11]