Workflow
大模型训推
icon
搜索文档
华为云:CloudMatrix384突破大模型训推瓶颈,加速行业智能化跃迁
搜狐财经· 2025-06-24 19:58
华为CloudMatrix384昇腾AI云服务技术突破 - 核心观点:CloudMatrix384昇腾AI云服务通过"硬件重构+软件智能"深度融合,构建高密、高速、高效的AI-Native基础设施,突破传统算力架构的"三墙"瓶颈(算力墙/通信墙/存储墙),成为行业智能化跃迁的核心引擎 [1][2] - 高密架构: - 创新性将384颗昇腾NPU与192颗鲲鹏CPU通过MatrixLink高速网络全对等互联,形成单节点"超级AI服务器" [6] - 支持432个超节点级联,构建最高16万卡超大集群,提供"无限算力池" [6] - 高速通信: - MatrixLink网络架构实现卡间带宽2.8Tb/s,节点内通信时延降至纳秒级,节点间时延仅微秒级 [6] - KV Cache传输带宽提升10倍,输出Token时延降至50ms,单卡吞吐量达2300 Tokens/s [6] - 高效调度: - 采用"一卡一专家、一卡一算子任务"的并行推理,算力有效使用率(MFU)提升50%以上 [7] - 全栈故障感知与自动恢复机制解决传统集群训推难题 [7] 行业应用与性能验证 - 大模型训练: - 千亿参数MOE模型训练性能显著提升,DeepSeek V3/R1在低时延下实现2000+ TPS吞吐量 [7][9] - 硅基流动部署DeepSeek-R1实现单卡Decode吞吐1920 Tokens/s,比肩主流GPU性能 [12][15] - 终端智能优化: - 华为终端"小艺"交互体验全面提升,结合元戎Serverless框架降低TTFT并提升Prefill/Decode吞吐 [16] - 与Mindspore结合解决EP专家负载不均问题,降低重计算损失 [16] - 跨行业案例: - 新浪"智慧小浪"推理交付效率提升50%+,上线速度成倍加快 [22] - 中科院基于该服务快速构建AI4S科研大模型,面壁智能提升小钢炮模型推理性能 [22] - 科大讯飞实现星火大模型极致推理,360启动"超级搜索"纳米A搜索测试 [22] 技术生态与行业影响 - 技术标准重构:CloudMatrix384通过算力/运力/存力全维度突破,建立大模型时代AI基础设施新标准 [2][6] - 生态协同:华为云以开放姿态联合硅基流动等伙伴打造标准化生成式AI Infra产品 [15][22] - 场景覆盖:服务将深度融入电商、社交、文娱、金融、汽车等行业的智能化场景 [22]
国产GPU“四小龙”冲击上市,摩尔线程率先完成上市辅导
南方都市报· 2025-06-19 12:37
摩尔线程上市进展 - 公司于2024年11月在北京证监局办理辅导备案登记,由中信证券开展辅导 [1] - 2024年6月10日完成上市辅导,进入"辅导验收"阶段,成为国产GPU"四小龙"中进度最快企业 [1] - 中信证券完成两期辅导工作,公司已建立符合上市公司标准的治理制度、财务管理及内控体系 [1] 科创板政策利好 - 中国证监会6月18日重启未盈利企业适用科创板第五套标准,覆盖人工智能等行业 [4] - 第五套标准不设财务硬性门槛,侧重技术领先性与市场空间,与公司技术定位高度契合 [4] - 公司意向选择科创板上市,政策松绑为其IPO创造有利条件 [4] 公司股权与业务布局 - 实际控制人张建中持股44.07%,曾任英伟达全球副总裁,拥有20年GPU行业经验 [5] - 业务覆盖AI芯片、游戏显卡及智算集群,是国内少数同时布局B端和C端的GPU企业 [5] - 夸娥(KUAE)智算解决方案支持万卡级部署,瞄准大模型训练与推理需求 [5] 融资与估值情况 - 完成6轮融资,投资方包括中国移动、红杉资本等国资与市场机构 [7] - 2024年估值达255亿元人民币,位列《全球独角兽榜》第261位 [7] 行业竞争格局 - 国产GPU"四小龙"中:燧原科技进入第三期辅导,募投方案仍在论证 [8] - 壁仞科技完成新一轮融资,但募投方案未定,股东核查工作量较大 [9] - 沐曦处于第一期辅导阶段,需完善股东穿透核查及募资可行性分析 [9]
华为「数字化风洞」小时级预演万卡集群方案,昇腾助力大模型运行「又快又稳」
雷峰网· 2025-06-11 19:00
昇腾建模仿真平台 - 业界首次发布昇腾建模仿真平台,实现负载-优化策略-系统架构联动寻优,找到基础设施运行甜点 [1] - 华为研究团队发现超过60%的算力浪费在硬件资源错配与系统耦合上 [2] - 传统优化方法在芯片特性的"三角矛盾"(算力-带宽-容量失衡)前束手无策 [2] 大模型训推系统挑战 - 大规模训练集群利用率黑洞:大模型训练过程像"猛踩油门",MoE模型需精准平衡计算与内存配比 [4] - 动态实时推理系统任务两极分化:需同时满足高吞吐与低延迟,在不同任务场景实现动态效率最优 [4] - 复杂万卡集群长稳运行需突破计算-内存动态博弈、异构任务资源争抢及硬件耐久性瓶颈 [4] 数字化风洞解决方案 - 在虚拟环境的"数字化风洞"中预演AI模型训推,提前发现计算系统瓶颈点和逻辑漏洞 [6] - 华为马尔科夫建模仿真团队构建昇腾"数字化风洞",能够小时级预演万卡集群方案 [6] - 通过昇腾亲和的性能加速与训推系统极致高可用,助力大模型运行"又快又稳" [6] Sim2Train训练仿真系统 - 实现并行配置、内存管理、系统亲和通信策略小时级自动寻优,支撑MFU达成41% [7] - 通过有向无环图的算子组合,灵活表达大规模AI应用,快速精准扫描模型资源需求 [7] - 依托负载-软件-硬件协同优化范式,发现最优设计与优化方案 [7] Sim2Infer推理仿真系统 - 实现高性能动态专家激活、自适应混合精度推理等,端到端推理性能提升30%+ [8] - 构建负载生成-请求调度-推理引擎-硬件系统四层架构的复杂推理建模仿真系统 [10] - 通过软硬协同建模仿真驱动推理系统创新优化,综合实现推理性能提升30%+ [10] Sim2Availability高可用仿真 - 实现集群硬件架构可靠性瓶颈定位及优化,支撑万卡集群分钟级快恢,可用度达成98% [11] - 高效精准构建集群系统对计算、存储、网络的"状态监控",通过马尔科夫链刻画系统随机行为 [13] - 通过动态规划弹性调度、极致去冗余并行掩盖优化等技术,实现算力系统可用度显著提升 [13] 未来发展方向 - 随着新型应用快速变化和系统架构持续创新,算力基础设施架构设计与优化空间持续激增 [16] - 华为将继续深化负载自动图化建模、多维架构耦合仿真等关键技术 [16] - 在系统瓶颈分析、最优部署策略求解、架构设计空间探索等领域发力 [16]
从 DeepSeek 部署看,华为如何让 MOE 架构“迎来”海量“专家”?
AI前线· 2025-05-22 12:30
模型开发趋势 - 模型开发从算法层优化转向系统工程层面的深度创新 [1] - 行业从数字化时代的比特流量转向Token经济体系,国内Token日消耗量从千亿级跃升至十万亿级 [1] - 头部平台如DeepSeek日均处理6000亿Token,验证高吞吐、低时延系统的商业价值 [1] - 模型结构从单一架构探索发展为多模态融合创新,分布式集群部署成为新常态 [1] - ChatGPT和DeepSeek用户规模突破亿级的时间从1个月压缩至7天,系统处理能力实现数量级提升 [1] 华为对DeepSeek的优化 - 华为针对DeepSeek的优化包括预训练、算子层面、计算与通信优化、内存优化等方面 [3][6][7][10] - 预训练方面,华为复现并改进DualPipe技术,最终提出DualPipe-V方案,优化显存使用并集成至MindSeed [6] - 算子层面实现MRN的PO融合算子,提升执行效率 [7] - 计算与通信优化包括低时延通信优化和双链路通信掩盖 [7] - 内存优化方面,华为自研重计算技术,节省多个GB显存,适用于计算量小但激活值大的操作 [10] 推理优化与系统架构 - 华为提出PD(Prompt Decoder)分离部署,降低首token延迟并提升整体推理效率 [12] - 针对MOE架构,华为研发"超节点"架构,通过高速总线将上百张GPU卡互联,显著减少通信时延 [14] - 超节点架构采用统一内存编辑和语义通信,实现TB级带宽超高速互联 [14] - Atlas 900 A3 SuperCluster突破Scale up物理节点计算瓶颈,训练效率提升2.7倍 [15] - 在A3超节点集群上完成DeepSeek V3训练优化,达到每卡1,216 TPS吞吐率,MFU达44.57% [15] MOE架构与负载均衡 - MOE架构专家数量不断增加,DeepSeek V3/R1已有288个专家 [13] - 华为引入动态专家并行策略,取代传统张量并行,规避显存和计算浪费 [17] - 通过静态、分段及动态均衡负载算法,解决专家并行带来的负载均衡问题 [17] - 华为发布OmniPlacement算法,识别热/冷专家,优化计算均衡,理论上降低10%推理延迟并提升10%吞吐量 [19]