模型推理

搜索文档
大模型推理,不再是“一根筋”
虎嗅APP· 2025-05-22 19:41
HUAWEI X HUXIU 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深 厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 近期,虎嗅将打造《华为技术披露集》系列内容,全面揭秘超大规模MoE模型推理部署技 术,通过一连串的技术报告,首次全面披露技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.4 :通信优化 01 大模型的推理, 就只是算力吗? 大语言模型(Large Language Models, LLMs) 自从其问世以来,便迅速成为全球科技领域乃至 整个社会的焦点。 根据Scaling law,大语言模型的能力与其参数量的对数正相关,因此大语言模型的参数 ...
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 18:25
机器之心发布 机器之心编辑部 在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日, 华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题 : 随着大语言模型(Large Language Models, LLMs)规模的指数级扩张,其部署形态也随之变化,显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署, 到稠密模型时代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家(Mixture of Experts, MoE)模型,大语言模型甚至会采用数百卡 组成的集群和超节点来部署。 可以说,模型推理早已不是「单兵作战」,而是一场高协同的「群体作战」。而在这基于集群的大模型推理中, 集合通信操作就像是一群工人协作盖房子时传递 材料和信息的方式,能让多个计算节点高效配合完成任务 。 由上可以看出, 集合通信操作是大模型推理中多个计算节点协作的「桥梁」,不同的并行策略(TP、DP、EP)通过这些操作实现高效的数据交互和计算,从而 加速大模型的推理过程 。 通信:Scaling law 头顶的 ...
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 12:13
机器之心发布 机器之心编辑部 在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日, 华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题 : 随着大语言模型(Large Language Models, LLMs)规模的指数级扩张,其部署形态也随之变化,显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署, 到稠密模型时代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家(Mixture of Experts, MoE)模型,大语言模型甚至会采用数百卡 组成的集群和超节点来部署。 可以说,模型推理早已不是「单兵作战」,而是一场高协同的「群体作战」。而在这基于集群的大模型推理中, 集合通信操作就像是一群工人协作盖房子时传递 材料和信息的方式,能让多个计算节点高效配合完成任务 。 有一些常用集合通信操作,比如 全量规约(AllReduce) 可以想象成一群工人各自收集了不同区域的建筑材料数据,全量规约就是把所有工人手里的数据汇总到 一个地方,进行求和、求平均值等计算。在大模型里,多个计算 ...
英特尔新显卡拉爆性价比,可本地跑DeepSeek-R1
观察者网· 2025-05-20 23:03
5月19日,在台北国际电脑展(ComputeX)上,英特尔发布了Arc Pro B50和Arc Pro B60两张显卡,起售价仅299美元(约合人民币2156元)。 英特尔官网 价格上,16GB显存的Arc Pro B50售价299美元(约合人民币2156元);24GB显存的Arc Pro B60,售价为500美元(约合人民币3605元)。 性能上,B50面向图形工作站,采用双槽厚度设计,拥有16个Xe核心和128个XMX引擎,可提供高达170 TOPS的峰值运算能力,同时配备16GB显存,显存 带宽为224GB/s,典型主板功耗为70W,支持PCIe 5.0×8连接。在图形工作负载方面,英特尔声称其性能比上一代A50提升了高达3.4倍,并且在MLPerf等一 系列AI推理测试基准上全面超越英伟达的RTX A1000 8GB。 在通用性能方面,锐炫Pro B50相比上一代产品提升50%-130%。其性价比不仅相较锐炫Pro A50、英伟达RTX A1000翻倍提升,比起锐炫Pro A60也略胜一 筹。 英特尔官网 B60则主要面向AI推理工作站,拥有20个Xe核心和160个XMX引擎,峰值TOPS可达197, ...
推理性能PK,华为+DeepSeek>英伟达?
虎嗅APP· 2025-05-19 21:47
虎嗅注: "大模型江湖,落地为王。"这句话的含金量还在提升。随着DeepSeek V3/R1在春节期间一夜爆火, 基于超大规模MoE(Mixture of Experts)架构的大模型正在从训练开发转向推理应用的落地。 对于MoE推理部署来说,效率一直是一个痛点。谁能将部署计算效率提升至最高,才能真正获得大 模型商业成功。但受限于庞大的模型容量与计算需求,传统部署方案通常依赖于多张数据中心级 GPU(如H20)。你我都知道,英伟达不仅贵,而且不断受到地缘政治摩擦的影响,不断降低自己的 性能来满足监管需求。 而在最近,华为全面揭秘超大规模MoE模型推理部署技术,不仅实现了国产的进一步突破,更全面 超越了基于英伟达Hopper架构的推理部署性能。 他们是怎么做到的? 数学补物理,极致提升计算效率 "数学补物理",这种通过数学理论、工具、算法和建模等方式,来弥补硬件和工艺的局限性,实现最 大化发挥芯片和系统能力效果。华为轮值董事长孟晚舟曾在2025年新年致辞中提到: "华为十多个实验室与伙伴们的工程师组成"大杂烩"团队,面对天成AI集群系统和单芯片性能的严峻 工程挑战,他们创造性应用数学补物理、非摩尔补摩尔、系统补 ...
华为+DeepSeek,推理性能创新高!技术报告也公布出来了
量子位· 2025-05-19 12:37
华为昇腾技术突破 - 华为昇腾在超大规模MoE模型推理性能上全面超越英伟达Hopper架构,实现"英伟达含量为0"的突破 [1] - 通过"以数学补物理"策略,利用数学理论、算法和建模弥补硬件局限,最大化发挥芯片和系统能力 [1] - 具体产品性能: - CloudMatrix 384超节点在50ms时延下单卡Decode吞吐达1920 Tokens/s [1][18] - Atlas 800I A2推理服务器在100ms时延下单卡吞吐达808 Tokens/s [1][21] 技术开源与披露 - 公司将全面开源昇腾超大规模MoE模型推理部署技术,包括技术报告和核心代码 [2] - 技术披露周活动将展示最新进展,相关资源可通过指定链接获取 [40][41] 行业趋势与挑战 - 大模型发展重心从训练转向推理应用落地,企业竞争焦点转向推理效率 [5][6] - 超大规模MoE模型(如6710亿参数的DeepSeek V3)带来三大挑战: - 内存压力:单个专家2.5G,64GB内存硬件难以承载 [7] - 通信开销:跨芯片数据传输耗时超过计算时间 [8] - 架构创新负担:如MLA机制导致中间变量激增 [9] 技术解决方案 硬件部署优化 - 采用PD分离部署解耦Prefill和Decode时延约束 [10] - CloudMatrix 384超节点采用144卡EP并行部署,128卡专用于路由专家 [17] - Atlas 800I A2采用多节点互联,2机16卡Prefill+4机32卡Decode [20] 框架与模型优化 - 基于vLLM框架适配DP/EP并行策略,优化调度分桶和分层传输 [12] - 采用A8W8C16量化策略(INT8+BF16),差异化部署不同机型 [13] - API Server横向扩展方案提升高并发场景QPS,动态负载均衡技术解决显存占用问题 [22] 通信优化 - FlashComm方案降低25%通信量并提升10%推理性能 [25] - 层内并行转换方案消除节点内卡间求和操作 [26] - 计算通信并发机制最大化硬件利用率,MLA层计算性能提升10% [27] 算子优化 - AMLA算法将乘性计算转为加性等价形式,减少数据搬运 [31] - L1/L2缓存精细化管理提升命中率,K-buffer流水排布掩盖计算耗时 [31] - 通算融合算子实现Token粒度流水排布,降低卡间同步开销 [31] 性能实测数据 - Prefill阶段:16K序列端到端耗时631ms,卡均吞吐1622 Tokens/s [34][36] - Decode阶段: - 2K输入+2K输出场景下吞吐达808 Tokens/s(90%接受率) [32] - 1K输入+2K输出场景下吞吐达876 Tokens/s(90%接受率) [32] - SiliconLLM框架部署DeepSeek-R1实现单卡1920 Tokens/s,等效H100性能 [38][39]
ICML 2025|如何凭「自动补全」实现100K生成3×加速?
机器之心· 2025-05-18 12:25
在当前大模型推理愈发复杂的时代,如何快速、高效地产生超长文本,成为了模型部署与优化中的一大核心挑战。随着 GPT-o3, DeepSeek R1 等具备 「超级上下文 窗口 」 能力的大模型持续刷新业界记录,百万甚至千万 Token 级别的推理任务已从研究话题迈入现实场景。然而,生成这些超长文本的背后,却隐藏着令人咋舌 的计算成本 —— 长时间的等待、巨大的内存负担以及偶尔重复乏味的输出,严重制约了这些模型的真正潜力。 面对这一挑战,BIGAI NLCo 团队提出了一项全新的推理加速框架 —— TokenSwift ,该工作已成功被 ICML 2025 正式接收!在这项研究中提出了一套可插拔、无 损、高效的生成加速策略,专为 100K Token 级别的长文本推理而设计。在保持原始模型输出一致性的前提下, 加速比达到 3 倍以上 ,极大提升了推理效率。 重新定义超长生成:为什么传统方法 「慢 」? 为了更好地理解 TokenSwift 的意义,我们先看一下目前主流大模型(如 LLaMA、Qwen 等)在长文本生成中的瓶颈所在。 尽管这些模型具备了强大的生成长上下文的能力,但大多数依然采用传统的自回归 (Aut ...
叶子豪、陈天奇等人开源项目FlashInfer入选,MLSys2025最佳论文奖公布
机器之心· 2025-05-14 12:36
核心观点 - 国际系统领域顶会 MLSys 2025 最佳论文奖由两篇华人主导的论文获得,分别是华盛顿大学等机构合作的《FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving》和瑞典查尔摩斯理工大学的《The Hidden Bloat in Machine Learning Systems》[1] - FlashInfer 是一个高效可定制的大语言模型注意力推理引擎,其技术已被集成到多个主流项目中[2][5] - 另一篇获奖论文提出了 Negativa-ML 方法,可显著减少机器学习系统中的代码臃肿问题[31][32] FlashInfer 论文 项目背景 - FlashInfer 是华盛顿大学、卡耐基梅隆大学和 OctoAI 合作的研究项目,旨在创建灵活的大语言模型推理内核库[4] - 项目提供多种 LLM GPU 内核的高性能实现,包括 FlashAttention、SparseAttention 等[4] - 首个适用于 DeepSeek MLA 的 Blackwell 内核也出自 FlashInfer[5] 技术优势 - 与当前最先进的 LLM 部署方案相比,FlashInfer 在多种场景下显著提升性能: - token 间延迟减少 29% 至 69%[7] - 长上下文推理任务延迟降低 28% 至 30%[7] - 并行生成场景推理速度提升 13% 至 17%[7] - 采用块稀疏行格式(BSR)存储键值缓存,支持动态配置块大小[16] - 兼容 NVIDIA Turing 到 Hopper 全系架构,针对不同硬件采用优化算法[17] 系统设计 - 通过 JIT 编译支持自定义注意力变体,用户只需定义函数子模块即可生成优化内核[20][21] - 采用 Plan/Run 模式处理不规则负载,借鉴 Inspector-Executor 模式[26] - 提供面向用户的 API,支持动态选择最优 CUDAGraph 执行[23] The Hidden Bloat in Machine Learning Systems 论文 研究内容 - 提出 Negativa-ML 方法,可分析 ML 框架共享库并识别消除臃肿代码[31] - 重点关注设备代码中的不必要代码,这是现有研究忽略的领域[31] - 在 300 个共享库的十个工作负载中验证方法有效性[31] 研究成果 - 平均减少设备代码大小达 75%,主机代码大小达 72%,文件总大小达 55%[32] - 峰值主机内存使用量减少最多 74.6%,GPU 内存使用量减少最多 69.6%[32] - 执行时间最多减少 44.6%[32]
不到15万元!清华90后团队发布“褐蚁”一体机,已支持阿里最新Qwen3模型|钛媒体AGI
钛媒体APP· 2025-04-30 23:09
行云集成电路创始人、CEO季宇 4月30日消息,钛媒体AGI获悉,清华90后创立的北京行云集成电路有限公司(简称"行云集成电路") 宣布,推出全新的一体机产品"褐蚁",仅需最高15万元就可以跑满血版DeepSeek R1/V3大模型,并且对 话速度达到了20token/s。 今天下午,行云集成电路创始人、CEO季宇对钛媒体AGI表示,目前"褐蚁"一体机已经支持阿里最新发 布的Qwen3系列开源大模型,包括顶配版Qwen3-235B-A22B。 具体来说,"褐蚁"一体机有三款不同的配置:最高性价比的"超大杯"褐蚁HY90,搭载双路AMD EPYC 9355服务器、24条 48G 6400M频率内存和NV 5090D计算卡,支持FP8、INT4两种数据精度,在FP8精度 下跑满血版DS能达到21token/s的对话速度,在INT4精度下则能达到28token/s,最高支持128K的上下 文,售价14.9万元;此外,行云集成电路还将推出"大杯"褐蚁HY70、"中杯"褐蚁HY50两个配置版本。 | 型号 | 福盛 HY90 | 褐蚁 HY70 | 褐蚁 HY50 | | --- | --- | --- | --- | ...
终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
机器之心· 2025-04-29 17:14
机器之心发布 机器之心编辑部 当前 AI 领域呈现「端云并发」的发展态势,端侧与云侧大模型各展所长,共同推动着智能发展与应用落地的边界。端侧模型实现本地毫秒级实时响应,云 侧模型依托强大算力支持复杂大规模推理,而两者都离不开高效的推理系统支撑。 在 GTC 2025 上,NVIDIA CEO 黄仁勋强调,大模型计算正从预训练转向推理优化阶段。 随着产业落地加速,推理计算需求正呈现爆发式增长,如何在性 能、成本和响应速度间取得平衡成为关键工程挑战,推理系统正是解决这一问题的核心 。 近日,无问芯穹发起了一次推理系统开源节,连续开源了三个推理工作,包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap,为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开 一一解读: Day 1|SpecEE:基于推测的 Early Exiting 机制,让 AI PC 推理速度起飞 随着 DeepSeek 等开源模型表现出越来越强悍的性能,在 PC 端本地部署大模型的需求持续增长。尽管许多情况下使用云端 ...