推理

搜索文档
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 18:25
大模型推理通信优化技术 核心观点 - 华为团队推出FlashComm系列技术,通过数学方法重构集合通信操作,解决大模型推理中的通信瓶颈问题,显著提升性能[10][17] - 三项关键技术分别针对AllReduce优化、计算通信平衡和多流并行,在DeepSeek等模型上实现22%-33%的性能提升[7][11][14][15] - MoE架构的扩展使通信复杂度呈平方级增长,传统方案如AllReduce在多节点部署中面临带宽限制和时延问题[6][8] 技术细节 集合通信基础 - 全量规约(AllReduce)用于梯度汇总,全量收集(All-Gather)实现数据聚合,规约散射(Reduce-Scatter)分摊计算压力[3] - 张量并行(TP)依赖All-to-All交换张量片段,数据并行(DP)需AllReduce同步梯度,专家并行(EP)需广播传递中间结果[4] 通信挑战 - MoE模型参数突破千亿级,专家路由与数据分发导致通信带宽需求呈平方级增长[6] - TP方案中AllReduce操作占端到端推理时延的30%以上,跨节点带宽限制加剧时延[6][8] 解决方案 - **FlashComm1**:拆解AllReduce为ReduceScatter+AllGather,插入INT8量化使通信量降35%,计算量减至1/8,DeepSeek模型Prefill性能提升26%[7][11] - **FlashComm2**:重构矩阵乘法并行维度,通信量降86%,整体推理速度提升33%[7][14] - **FlashComm3**:实现MoE五大模块三流并行,Decode吞吐提升30%,多卡并行释放2GB内存[15] 行业影响 - 昇腾硬件通过多流引擎支持计算通信重叠,构建大模型推理全栈生态[17][18] - 未来方向包括权重自动预取、模型自动多流并行等,持续优化超大规模EP架构[17]
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 12:13
大模型推理通信优化技术 核心观点 - 华为推出FlashComm系列技术,通过数学重构和硬件协同优化,解决大模型推理中的通信瓶颈问题,显著提升推理性能 [2][7][10] - 集合通信操作(如AllReduce、All-Gather)是大模型多节点协作的关键桥梁,但传统方案在MoE等大规模场景下存在效率缺陷 [3][4][6] - 通信优化技术使DeepSeek模型Prefill阶段性能提升22-26%,Decode阶段提升14-30%,Llama3.1-70B模型也有显著加速 [11][14][15] 技术细节 通信挑战 - MoE模型参数突破千亿级别,专家路由与数据聚合导致通信带宽需求呈平方级增长,网络拥塞风险加剧 [6] - 传统AllReduce在多节点部署中跨节点带宽受限,端到端推理时延占比过高 [6][8] - TP并行方案中卡间权重切分虽降低单卡负载,但AllReduce操作仍造成显著时延 [6] 解决方案 **FlashComm1** - 将AllReduce拆解为ReduceScatter+AllGather两阶段,中间插入数据投影降维和INT8量化,通信量降低35%,关键计算量减少至1/8 [11] - DeepSeek模型Prefill推理性能提升22-26%,Llama3.1-70B Decode阶段提升14% [11] **FlashComm2** - 重构矩阵乘法并行维度,将三维张量压缩为二维矩阵,配合INT8量化使注意力机制通信量下降86% [14] - DeepSeek模型整体推理速度提升33% [14] **FlashComm3** - 对MoE模型五大模块(激活通信、门控决策等)进行数学重构,利用昇腾多流引擎实现三股计算流并行 [15] - 腾出2GB内存空间,DeepSeek模型Prefill提速超10%,Decode吞吐增加25-30% [15] 行业影响 - 华为昇腾构建面向大模型推理的全栈生态体系,未来将聚焦超大规模EP下的多流并行、权重自动预取等技术 [17][18] - 技术方案已应用于DeepSeek V3/R1等MoE模型,参数规模达千亿级别,推动行业解决Scaling Law下的通信瓶颈 [6][16]
黄仁勋强调“推理AI时代才刚开始” AI基建规模 十年看10万亿美元
经济日报· 2025-05-22 07:27
英伟达执行长黄仁勋昨(21)日于全球媒体问答活动上表示,"推理AI时代才刚开始",现在正处在AI工 厂产业的开端而已,估计约十年内,AI基础建设与AI工厂市场规模将会从数千亿美元扩大到10万亿美 元以上。 法人看好,黄仁勋持续唱旺AI基建与AI工厂商机,英伟达订单也将源源不绝,台积电(2330)为英伟 达AI芯片代工伙伴,受惠最大;鸿海、广达、纬创等AI服务器代工厂也将搭上这波AI大浪潮。 他强调,先进封装对于AI发展很重要,"目前除了CoWoS,我们别无其他选择。"因为摩尔定律已经来 到极限,以具备经济效益方式增加电晶体数量的进展,已经显得稳定停滞。所以当想要打造大型芯片 时,就必须以小芯片的形式来解决问题,将芯片封装在一起。 黄仁勋认为,未来可能考虑进一步整合矽光子技术,有共同封装的选择,那么后续封装技术可能又会变 得更复杂,"这实在很酷"。 黄仁勋表示,全球需要具备更多的制造韧性和多样化,其中一部分将分布在全球各地,在美国也会有部 分制造,但不可能所有制造业都在本土完成。但应当尽可能地维护国家安全,同时又在全球各地保有韧 性与余裕。 黄仁勋近期屡次强调,英伟达已是AI基础建设公司。他昨日提到,AI基础建 ...
万国数据-SW(9698.HK):EBITDA增长提速 上架率提升
格隆汇· 2025-05-22 01:44
风险提示:1)云计算行业增速弱于我们预期;2)融资利率上升;3)市场竞争加剧。 预计2025 年业绩稳步增长,净负债/调整后EBITDA 比例逐步下降公司维持业绩指引不变,预计其2025 年总收入为112.9-115.9 亿元(同比增长9.4%-12.3%), 调整后EBITDA 为51.9-53.9 亿元( 同比增长 6.4%-10.5%),这一业绩指引部分受到ABS 项目出表的影响。我们注意到,ABS 项目完成后,公司杠 杆率逐步下降,1Q25 净负债/经调整EBITDA 比例已下降至6.6 倍(1Q24:7.7 倍)。公司将继续积极推 进公募REITS 的发行工作,随着市场需求的进一步好转及REITS 项目的推进,公司的杠杆率有望逐步 下降,利息费用将相应减少,带动业绩改善。 看好公司长期发展,维持"买入"评级 我们维持盈利预测不变,预计公司25-27 年经调整EBITDA 分别为52.9/59.3/68.8 亿元。我们采用SOTP 估值法对公司估值,国内业务方面,考虑到公司上架率提升及REITS 项目带来的现金流改善,我们将 2025 年EV/EBITDA 目标估值由15 倍上调至16 倍(可比平均: ...
AI推理加速演进:云计算的变迁抉择
21世纪经济报道· 2025-05-21 19:09
AI发展趋势 - 开源大模型高效迭代推动AI发展从训练转向推理 小模型应用落地需求增加 对云计算市场产生深远影响 [1] - IDC预测未来AI推理市场规模将达训练需求的十倍以上 垂直场景小模型部署潜力更大 [1] - 行业投资重心转向推理 企业需关注推理效率(吞吐量、时延、成本) Akamai服务提升3倍吞吐并降低60%时延 [2][3] 云计算架构变革 - 边缘计算成为重要增长点 分布式架构需满足低延时(10毫秒)、灵活部署 Akamai覆盖130国4200边缘节点 [3] - 混合云/多云策略被绝大多数企业接受 客户探讨如何执行符合业务特性的多云战略 [1] - 边缘推理优势显著:靠近用户提升体验 满足数据主权要求 降低数据传输成本 [3] 模型应用特征 - 实际生产中89%用户采用小模型解决具体问题 商业化程度高于大模型 智能客服等场景已验证效果 [2] - 时延敏感领域更适合边缘部署小模型 "快思考"与"慢思考"模型需差异化云环境部署 [3][4] - 中国企业出海加速嵌入AI推理能力 如商旅行业用AI生成非定制行程建议 [5] 行业挑战与优化 - 企业CTO反映前期过度投入训练 推理准备不足 需构建运营级服务能力(算力/数据管理/边缘运维) [2] - "慢思考"模型推高云计算成本 迫使企业优化服务效率 需平衡资源使用与成本 [3] - 推理需额外考虑可扩展性、合规性等要素 与训练数据中心要求存在差异 [2]
黄仁勋直言:对华的芯片出口政策失败
半导体芯闻· 2025-05-21 18:29
英伟达CEO黄仁勋对中美半导体政策的评论 - 黄仁勋称美国政府限制对华半导体出口政策是"失败",指出最初制定人工智能扩散规则的基本假设存在根本性缺陷 [1] - 由于禁止向中国出口H20产品,NVIDIA已遭受数十亿美元损失,这比许多半导体公司的销售额还要大 [1] - 特朗普总统近期限制了NVIDIA为规避出口管制而降低性能开发的H20芯片对华出口 [1] 人工智能半导体行业现状与前景 - 人工智能半导体领域今年规模预计将增长至500亿美元(约70万亿韩元) [1] - 全球超过50%的人工智能研究人员集中在中国,出口限制迫使他们转向中国本土技术 [2] - 推理人工智能的普及将使对计算机操作的需求增加多达1,000倍 [2] 美国在人工智能领域的竞争策略 - 黄仁勋强调美国公共和私营部门必须全力冲刺,才能在中国重新夺回压倒性市场份额 [1] - 人工智能基础设施是继电力和互联网之后的基础设施,各国和各企业的投资才刚刚起步 [3] - 美国必须全速前进才能超越中国,需要最大限度地普及人工智能并提高速度 [3] 黄仁勋对特朗普政策的反应 - 黄仁勋对特朗普关于废除人工智能半导体出口法规并制定新规则的声明表示欢迎 [2] - 黄仁勋赞扬特朗普明白美国公司并非人工智能技术的唯一提供者 [2] - 黄仁勋认为特朗普意识到先前的规定完全是错误的目标 [2]
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
量子位· 2025-05-21 12:01
核心观点 - 剑桥、伦敦大学学院和谷歌的研究团队推出首个纯粹依靠图像进行推理的新范式——基于强化学习的视觉规划(VPRL),不再依赖语言中介 [1] - VPRL在多个视觉导航任务中准确率高达80%,性能超文本推理至少40%,首次验证视觉规划显著优于文本规划 [4][27] - 新框架利用GRPO对大型视觉模型进行后训练,性能表现远超基于文本的推理方法 [3][9] 技术框架 - VPRL分为两个阶段:策略初始化阶段通过随机游走轨迹初始化模型并最小化监督损失,强化学习优化阶段通过GRPO计算组内相对优势并最大化目标函数 [10][11][14][15] - 框架通过奖励函数评估动作有效性,奖励进展动作、零奖励非进展动作、惩罚无效动作 [16] - 选用VPFT和SFT作为基线比较,VPFT用最佳规划轨迹取代随机轨迹,SFT用文本描述取代中间视觉结果 [17] 实验设计 - 选取FrozenLake、Maze和MiniBehavior三个完全以视觉方式表达和执行的代表性任务 [19][20][21] - 采用LVM-3B作为视觉模型,Qwen 2.5VL-Instruct、Gemini 2.0 Flash和Gemini 2.5 Pro作为文本和多模态参考模型 [23] - 评估指标采用精确匹配率(EM)和进展率(PR),衡量模型生成规划轨迹的准确性和连续性 [25] 实验结果 - VPRL在三个任务中平均EM高达80.6%,远超文本基线(Gemini 2.5 Pro平均EM为43.7%) [27] - VPRL相比监督基线VPFT提升超20%,在复杂任务MiniBehavior中EM高达75.8% [28] - 随着网格尺寸增大,VPRL性能下降平缓(EM从97.6%降至82.4%),而Gemini 2.5 Pro从98.0%骤降至38.8% [31] - VPRL将无效失败率降低了24%,在FrozenLake、Maze和MiniBehavior任务中分别降至36.9%、25.1%和29.6% [32][33] 行业影响 - 首次验证纯视觉推理的可行性,推动多模态推理向更直观的图像化方向发展 [34] - 相关代码已开源,可供行业进一步研究和应用 [5] - 团队成员长期致力于视觉推理研究,曾研究通过多模态思维可视化(MVoT)生成视觉"思想" [34]
天弘科技:以太网交换机、ASIC服务器双轮驱动-20250521
国金证券· 2025-05-21 09:23
报告公司投资评级 - 报告给予公司“买入”评级,目标价133.02美元 [4][75] 报告的核心观点 - 公司作为ASIC服务器与以太网ODM交换机主要厂商,有望受益ASIC行业趋势,在ASIC服务器赢得新客户定点,以及ODM收入占比增长带动盈利能力提升,具备较强alpha属性,随着主要ASIC客户新一代产品25H2有望开始放量,公司业绩预期有望持续兑现 [3] 根据相关目录分别进行总结 一、深度布局ASIC服务器+以太网交换机,AI推理核心受益标的 - 推理算力重要性提升,ASIC产业链有望受益:大语言模型推理成本指数级下降,每美元生成token数量增长,模型能力提升,推理成本降低和算法迭代带动ASIC需求增长,ASIC相比GPU性价比高,可定制开发,提升运算效率、降低功耗和单价 [14][15] - ASIC有望受益客户放量+客户拓展:公司连接与云端解决方案产品主要客户优质,增长驱动力来自ASIC服务器与高速以太网交换机在北美CSP放量,目前主要ASIC服务器客户为谷歌,25H1企业终端市场收入承压,25H2有望重回增长,还成为Meta的ASIC服务器供应商,获得一家领先商业化AI公司的ASIC系统项目全栈方案 [27][29][30] - 受益AI以太网组网趋势,交换机业务有望起量:大型云厂商在AI芯片组网中逐渐转向以太网,数据中心以太网交换机以白盒交换机为主,公司作为白牌交换机主要厂商之一,份额有望提升,以太网交换机市场有望增长,公司有望受益于客户需求带动的交换机需求增长 [32][39][45] 二、从EMS转向ODM,有望加强客户绑定并保持较强竞争力 - 从EMS转向ODM,盈利能力改善:公司推出“硬件平台解决方案”的ODM业务模式,收入持续增长,带动盈利能力提升,未来ODM业务收入占比有望继续提升,驱动力来自交换机收入增长和ASIC服务器复杂度提升 [50][51][53] - ASIC机柜有望成为主流方案,公司有望受益于加深已有客户绑定+拓展新客户:ASIC逐渐转向机柜形式出货,公司已有客户和新客户的ASIC预计采用机柜形式,公司作为领先企业,有望增强行业地位,获得更多项目导入机会,未来有望更多参与设计,加强与客户绑定,提升盈利能力 [57][60][61] - 全球布局,有望充分降低关税影响:公司产能全球布局,数据中心业务在加拿大、墨西哥、马来西亚、印度有产能布局,出货有望享受协定或低关税,主要数据中心出货产品在关税豁免清单,极端情况下可能将业务转向美国本土或墨西哥 [62][66] 三、ASIC行业β+公司自身α,有望开启强预期、强现实的持续兑现 - 公司作为主要厂商,有望受益ASIC行业趋势,具备较强alpha属性,经营杠杆高,利润弹性大,ODM业务收入占比有望提升,盈利能力持续向上,市场对公司客户有较强预期,25H2公司ASIC业务和交换机业务有望业绩持续兑现 [67][68] 四、盈利预测与投资建议 - 盈利预测:预计公司2025 - 2027年营业收入分别为112.47、139.27、158.84亿美元,同比+16.60%、+23.83%、+14.05%,毛利率分别为11.17%、11.31%、11.23%,连接与云解决方案业务、通信终端市场、企业终端市场、高级技术解决方案收入有不同预测 [69][70][71] - 投资建议:预计公司2025 - 2027年净利润分别为5.93、7.65、8.71亿美元,同比+38.4%、+29.1%、+13.9%,EPS分别为5.15、6.65、7.57美元,给予公司26年20X PE,对应目标价133.02美元,首次覆盖,予以“买入”评级 [74][75]
英特尔新显卡拉爆性价比,可本地跑DeepSeek-R1
观察者网· 2025-05-20 23:03
5月19日,在台北国际电脑展(ComputeX)上,英特尔发布了Arc Pro B50和Arc Pro B60两张显卡,起售价仅299美元(约合人民币2156元)。 英特尔官网 价格上,16GB显存的Arc Pro B50售价299美元(约合人民币2156元);24GB显存的Arc Pro B60,售价为500美元(约合人民币3605元)。 性能上,B50面向图形工作站,采用双槽厚度设计,拥有16个Xe核心和128个XMX引擎,可提供高达170 TOPS的峰值运算能力,同时配备16GB显存,显存 带宽为224GB/s,典型主板功耗为70W,支持PCIe 5.0×8连接。在图形工作负载方面,英特尔声称其性能比上一代A50提升了高达3.4倍,并且在MLPerf等一 系列AI推理测试基准上全面超越英伟达的RTX A1000 8GB。 在通用性能方面,锐炫Pro B50相比上一代产品提升50%-130%。其性价比不仅相较锐炫Pro A50、英伟达RTX A1000翻倍提升,比起锐炫Pro A60也略胜一 筹。 英特尔官网 B60则主要面向AI推理工作站,拥有20个Xe核心和160个XMX引擎,峰值TOPS可达197, ...
AI巨头新品亮相Computex 2025 争霸生态整合与AI推理市场
证券时报网· 2025-05-20 20:09
行业动态 - Computex 2025是亚洲最大电子科技展会 英伟达 英特尔等公司发布新品 AI推理成为重点布局方向 生态整合被突出强调 [1] 英伟达生态拓展 - 公司发布GB300 NVL72平台及NVIDIA NVLink Fusion 首次向第三方开放NVLink IP授权 允许非英伟达CPU ASIC或加速器与GPU深度整合 [2] - 联发科 Marvell Alchip Technologies Astera Labs Synopsys Cadence等公司率先采用NVLink Fusion 富士通 高通CPU可与英伟达GPU集成构建高性能AI工厂 [2] - 创始人黄仁勋表示数据中心需重构 AI融入每个计算平台 NVLink Fusion开放AI平台和生态系统 [2] 英伟达战略布局 - 公司将联合富士康 台积电在中国台湾建设首座人工智能超级计算机 强化AI生态系统核心支柱 新办事处命名为"Nvidia Constellation" [3] - 公司计划在上海建研究中心 聚焦中国客户定制化需求 [4] 英伟达产品更新 - 推出GB300 NVL72 AI服务器 推理性能提升50% 2025年第三季度量产上市 [5] - 针对企业级AI推理市场推出RTX PRO服务器 最多配置8张Blackwell RTX Pro Graphics 6000卡 完全兼容AI企业软件平台 [5] - 个人工作站DGX Spark将于7月起发售 [5] - 更新机器人基础模型Isaac GR00T 增加人形机器人训练合成数据生成框架Isaac GR00T - Dreams 发布用于合成运动生成的蓝图及NVIDIA Blackwell系统 [5] 英特尔产品发布 - 推出锐炫Pro B60和锐炫Pro B50 GPU 专为AI推理和专业工作站设计 采用PCIe Gen5接口 性能提升10%-20% [6] - Gaudi 3 AI加速器提供PCIe和机架级系统部署选择 支持现有服务器数据中心环境可扩展AI推理 2025年下半年上市 [6] - AI Assistant Builder已在GitHub发布 作为轻量级开放软件框架 开发者可创建针对英特尔平台优化的本地AI代理 [6] AMD动态 - 计划于2025年5月21日正式揭晓Radeon RX 9060 XT [6] 市场观点 - 黄仁勋指出美国AI扩散规则限制其他国家使用美国技术是错误做法 应加速推广美国技术 AI是完整技术栈 不能只保护某一层 [3] - 失去中国市场意味着美国公司损失90%全球市场 英伟达因禁售H20计提55亿美元库存减值损失 放弃150亿美元销售额 中国每年潜在市场达500亿美元 [3]