Workflow
大模型训练
icon
搜索文档
华为AI实力!不用GPU,大模型每2秒吃透一道高数大题!
第一财经· 2025-05-30 17:32
华为Pangu Ultra MoE大模型技术突破 - 实现国产算力与国产模型全流程自主可控训练闭环 昇腾Atlas 800T A2万卡集群MFU提升至41% 单CloudMatrix 384超节点吞吐达35K Tokens/s [2][3] - 首次披露昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术 让以强化学习为核心的后训练进入超节点集群时代 [3][4] - 7180亿参数规模 61层Transformer结构 前3层稠密层后58层MoE层 隐层维度7680 配备256个路由专家和1个共享专家 专家隐层维度2048 [32] 技术痛点与解决方案 - 当前MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难 All-to-All通信瓶颈 系统负载分布不均 算子调度开销过大 训练流程管理复杂 大规模扩展受限 [7][8] - 通过并行策略智能选择 计算通信深度融合 全局动态负载平衡等技术创新显著提升集群效率 建模仿真驱动智能并行优化确定最优部署配置:16路流水线并行 8路张量并行 32路专家并行 2路虚拟流水线并行 [11][12][13] - 创新设计分层All-to-All通信去冗余机制 专家并行通信开销降至<2% 采用EDP全局负载均衡优化策略 实现设备间计算负载精确平衡 [14][17] 昇腾单节点算力优化 - 通过昇腾架构深度适配的训练算子加速 关键算子性能显著跃升 Host-Device协同优化将MoE训练中Host-Bound占比控制在2%以下 [21][23] - 构建精密内存优化框架 实现70%激活值内存节省 微批处理规模提升至原来两倍 [24][25] - 采用RL Fusion训推共卡技术 支持训练推理共卡 全共卡等灵活部署模式 实现秒级训推状态转换 后训练集群利用率翻倍 [27][28] 强化学习后训练创新 - 设计准异步机制StaleSync 让不同RL阶段任务在陈旧度阈值内并行执行 系统整体训练吞吐提升50% [29] - 采用分布式数据队列DistQueue 有效缓解不同计算任务间数据阻塞 为后训练任务高效调度提供支持 [29] - 在昇腾CloudMatrix 384超节点集群后训练中 采用训练推理混合并行策略 实现每超节点35K Tokens/s高吞吐 支持高效扩展超过4K卡集群 [32][34]
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
第一财经· 2025-05-29 18:50
模型架构与训练方法 - 华为盘古团队发布Pangu Ultra MoE模型技术报告,披露准万亿MoE模型在昇腾NPU上的全流程训练细节[1] - 模型采用Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,实现10+T tokens数据的长期稳定训练[1][8] - 提出EP group loss负载优化方法,保证专家负载均衡并提升领域特化能力,同时采用MLA和MTP先进架构及Dropless训练策略[1][3] 性能与规模 - 模型参数规模达718B,激活量39B,采用256个路由专家,每个token激活8个专家[5] - 预训练阶段在6k-10k张NPU上进行,具备128k长序列能力,后训练阶段移除负载均衡辅助损失以提升学习效率[3] - 在多个权威评测集上表现稳健,如C-Eval 90.8、MMLU 91.5、AIME2024 81.3等,部分指标领先竞品[6] 技术创新 - DSSN+TinyInit方案使梯度突刺率从1.54%降至0.76%,相对下降51%,显著提升训练稳定性[8][11] - EP-Group负载均衡loss相比Micro-batch方案平均提升1.5个点,同时促进专家特化[15][16] - MTP头延迟扩展策略使投机接受长度提升38%,双头扩增效果与从头训练相当[21][23] 训练优化 - 隐藏层设为7680维,精准匹配昇腾芯片16×16 MatMul单元,充分发挥计算潜力[5] - 采用61层Transformer结构,优化流水线并行调度,减少pipeline气泡[5] - 专家数量按2⁸=256设置,提升All-to-All通信效率,加速分布式训练[5] 强化学习系统 - 设计迭代难例挖掘机制,从数据池筛选通过率(0,1)的数据提升RL训练效率[25][27] - 多能力项奖励系统结合规则奖励与LLM-as-a-judge评分,确保数学、代码等能力协同提升[27] - 参考GRPO算法但优化了超大模型场景下的训练浪费和能力不匹配问题[25]
训练大模型,终于可以“既要又要还要”了
虎嗅APP· 2025-05-29 18:34
华为Pangu Ultra MoE模型技术突破 - 华为推出参数规模高达718B的准万亿MoE模型Pangu Ultra MoE 该模型融合计算、通信和内存等多维度指标 在昇腾NPU平台上实现最佳平衡 [6] - 模型采用256个路由专家 每个token激活8个专家 总参数量718B 激活量39B 具有超大规模和超高稀疏比特性 [6] - 引入MLA注意力机制 有效压缩KV Cache空间 缓解推理阶段内存带宽瓶颈 优于传统GQA方案 [6] 模型架构创新 - 采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法 使梯度突刺率从1.54%下降到0.76% 相对下降51% [13][17] - 设计EP-Group负载均衡loss 相比主流Micro-batch方案在大部分任务上平均提升1.5个点 [20][21] - 采用单头MTP进行训练 后续复用参数扩展至多头结构 实现多Token投机推理 接受长度提升约38% [26][27] 训练方法优化 - 全流程采用dropless训练模式 避免Drop&Pad训推不一致问题 提升训练数据效率 [7] - 预训练阶段在6k到10k张NPU上进行 具备128k长序列能力 [8] - 采用迭代难例挖掘与多能力项均衡的奖励函数 参考GRPO算法提升训练效率与推理性能 [29][31] 昇腾硬件亲和设计 - 隐藏维度设置为7680维 精准匹配DaVinci芯片的16×16 MatMul单元 充分发挥计算潜力 [7] - 设置61层Transformer结构 预留额外MTP层空间 保障计算负载均衡的流水线调度 [7] - 路由专家数量设为256 在TP×EP并行下提升All-to-All通信效率 加速分布式训练 [7] 模型性能表现 - 在C-Eval评测中得分90.8 CLUEWSC得分94.8 MMLU得分91.5 整体效果优于主流模型 [9] - 在推理能力评测中 AIME2024得分81.3 GPQA-Diamond得分75.3 MATH500得分97.4 [9] - 强化学习训练系统有效解决了多能力协同提升问题 保持模型在数学、代码和通用能力的均衡表现 [31]
广州南沙全力构建人工智能产业新高地
中国证券报· 2025-05-29 04:35
湾区人工智能产业创新联盟成立 - "湾区人工智能产业创新联盟"由香港科技大学(广州)与华为联合港澳及国际知名机构发起,整合国际、港澳及内地科研资源,旨在推动南沙成为粤港澳大湾区人工智能创新引领地、全国AI+产业发展风向标、世界人工智能人才集聚区 [1] - 联盟聚焦三大核心任务:在大模型训练、具身智能等关键技术领域突破,推动形成千亿级产业集群,建设公共算力平台及全链条产业服务体系 [2] - 南沙区发布专项扶持政策,对算力、数据、算法三大要素提供最高1000万元资金支持,涵盖算力补贴、数据交易奖励及大模型研发 [2] 南沙人工智能产业发展现状 - 2024年南沙人工智能相关产业规模约100亿元,同比增长12%,集聚云从科技、小马智行、奥飞数据等100余家企业,覆盖芯片、算法、自然语言处理等领域 [2] - 形成环港科大(广州)创新区和香江国际科创中心两大产业聚集区,其中小马智行自动驾驶出租车业务2025年Q1收入达1230万元,同比增长200% [2][3] - 南沙港四期全自动化码头采用北斗导航+AI+无人驾驶技术,2024年Q1集装箱吞吐量同比增长41.42%,智能导引车定位误差不超过3厘米 [4][5] 企业动态与全球化布局 - 小马智行与优步达成全球合作,2025年下半年接入其平台,并计划拓展中东市场,与迪拜道路交通管理局合作落地无人驾驶出租车服务 [3] - 云从科技以"AI智能体+行业大模型"为核心战略,覆盖智慧治理、金融等垂直领域,构建平台化通用模型与行业专用模型双引擎 [4] 政策与产业融合 - 广东省推出《推动人工智能与机器人产业创新发展若干政策措施》,实施"人工智能+"行动,在教育、医疗等领域拓展应用 [3] - 南沙推动AI与实体经济融合,形成全自动化码头等标杆项目,智能引导车实现多源融合定位技术提升效率 [4][5]
湾区人工智能产业创新联盟成立
中国经济网· 2025-05-27 11:32
湾区人工智能产业创新联盟成立 - 联盟由香港科技大学(广州)与华为联合港澳及国际知名机构共同发起,汇聚粤港澳大湾区产学研用金多方力量,宗旨为"立足湾区、协同港澳、面向世界" [2] - 联盟聚焦三大核心任务:技术攻关(大模型训练、智能芯片、具身智能)、产业集聚(千亿级产业集群、培育独角兽)、生态构建(公共算力平台、开放数据集与应用场景库) [2] - 香港科技大学(广州)校长提出以联盟为平台打造"AI未来城",整合技术攻关、标准共建、成果转化和企业孵化功能 [2] 政府支持与战略定位 - 广东省科技厅指出联盟成立是落实国家《新一代人工智能发展规划》的关键举措,推动大湾区建设"国际科技创新中心" [3] - 广州市南沙区委书记强调以"创业者"姿态聚焦平台建设、开放共享、场景应用与生态共赢,吸引产业资源与项目落地 [3] 重点项目合作 - 华为与香港科技大学(广州)启动"科教创新孵化中心"项目,实现产教融合与科教融汇双向驱动 [3] - 华为与中铁隧道局合作规划"隧智汇"隧道工程行业大模型体系,搭建大数据平台底座并推动全流程数智化转型 [3]
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
量子位· 2025-05-19 12:37
大模型分布式训练技术 - 随着大模型参数规模扩大,分布式训练成为AI发展的中心技术路径[1] - 高带宽域(HBD)设计对提升大模型训练效率至关重要[2] - 张量并行和专家并行需依赖HBD提供Tbps级带宽支持[6] 现有HBD架构的局限性 - 以交换机为中心的HBD(如NVIDIA NVL-72)成本高昂且不易扩展[3][8] - 以GPU为中心的HBD(如Google TPUv3)存在严重的故障传播问题[3][12] - 交换机-GPU混合HBD(如TPUv4)在成本和容错方面仍不理想[3][18] InfiniteHBD创新架构 - 采用以光交换模组为中心的HBD架构,单位成本仅为NVL-72的31%[4] - 通过OCS技术实现节点级故障隔离,GPU浪费率接近零[4][59] - 与NVIDIA DGX相比,MFU最高提升3.37倍[4][63] 关键技术突破 - 基于硅光子技术的OCS光电转换模组(OCSTrx),支持800Gbps带宽[30][31] - 可重配置的K-Hop Ring拓扑,支持动态构建任意大小的GPU粒度环[36][39] - HBD-DCN编排算法将跨ToR流量降低5.8倍[69] 性能优势 - 互连成本仅为NVL-72的31%、TPUv4的63%[74] - 能耗为NVL-72的75%,与TPUv4持平[74] - 在Llama3.1和GPT-MoE 1.1T训练中表现优异[62][64] 行业合作 - 阶跃星辰作为通用大模型创业公司参与研发[77] - 曦智科技作为光电混合算力提供商支持技术创新[77] - 上海智能算力科技正在筹备相关集群建设[77]
首程控股20250518
2025-05-18 23:48
纪要涉及的公司 首程控股 纪要提到的核心观点和论据 - **业绩表现**:2025年一季度收入3.52亿港元,与去年同期基本持平,归母净利润2.13亿港元,同比增幅达80%,增长主要来源于投资收益;资产运营收入2.58亿港元,同比增长27%,主要来自停车和园区板块,停车板块新投入机场项目、停车费上涨及广告业务促进收入增长[2][3] - **资产融通**:收入0.94亿港元,完成与上海宝山区、成都武侯区成立区域基金,与中国人寿成立100亿产业引导基金,扩大基金管理规模;布局机器人领域,管理多项投资[4][5] - **充电加停车业务**:创新业务提高公司收入和被投企业知名度;采取多种参与模式,注重核心城市核心地段,确保盈利能力,目前选择能盈利的场站布局[7][9] - **机器人投资规划**:2024年开始投资机器人领域,已投资16个标的,集中于机器人本体;2025年将加大对零部件环节投资,强调投后赋能[10] - **低空飞行器规划**:关注低空飞行器及相关技术,结合停车综合体建设经验,与省市探讨并试点项目管理,为其发展提供支持[4][11] - **机器人公司业务进展**:2025年2月成立,主营销售代理、租赁业务、供应链管理和行业咨询;医疗领域获三级证书,租赁业务已展开,展览展示商业化领先,市政、医疗、教育方向有规划,2025年希望贡献营收和净利润[12] - **租赁业务毛利率**:各细分市场波动大,目前难提供固定毛利率,随行业成熟、产品定制化和商业化进程加快,未来预计逐步提高[16][17] - **机器人领域战略布局和财务表现**:2024年初战略转型,2025年一季度财务数据有成果体现但不明显,预计后续报告数据更多;坚持投资和产业化并举,传统业务与机器人业务契合,计划塑造ETF机器人基金[19] - **大模型训练及商业化应用**:成立机器人科技产业公司,提供场景采集数据、更新迭代产品;投资的资产可作应用落地场景;通过二次开发大模型实现垂类场景应用落地,贡献收入和利润[20][21] - **公司定位和分红计划**:定位为具备成长性且高分红的公司,延续到2027年不低于80%归母净利润派息计划,让投资人共享高成长收益与稳定分红[22] 其他重要但是可能被忽略的内容 - 2025年计划在停车板块进军产权车位市场,以应对房地产市场K型分化时期[6] - 市属园林机器人运营规模需先预选型,根据需求采购或租赁,简单功能机器人适合租赁,目前无具体测算数据[13][14] - 首程控股未直接运营园林业务,协助机器人进入北京市属园林,首批约100个,每个用材林可能需1到3个机器人[15] - 目前租赁业务涉及机器人品牌数量未公开,将通过公告等方式公布进展[18] - 一些国内外本土企业具备小批量量产条件,首程控股提供真实数据采集环境可加速垂直细分场景大模型训练进度,推动商业化落地[22][23]
电子行业跟踪周报:架构级创新,华为UBMesh直击大模型训练的“通信墙”与成本痛点-20250511
东吴证券· 2025-05-11 22:05
报告行业投资评级 - 增持(维持) [1] 报告的核心观点 - 面向AI训练集群诉求华为推出UB Mesh架构 其采用nD - FullMesh拓扑结构 降低信号传输开销和成本 提高系统可靠性 且通过统一总线实现多组件互连与资源动态池化 [6] - UB Mesh机架架构以单机柜64个NPU为核心 可形成4D层级互连和8000卡规模的集群 满足大规模LLM训练需求 [2] - 相同训练基准下 UB Mesh较Clos实现2.04倍的成本效益提升 降低网络基础设施成本和运营成本 [3] - 芯片及网络架构创新持续推进 昇腾有望推动产业链相关公司业绩及估值双升 获得国内算力芯片较大市场份额 打开国产AI服务器零部件成长空间 [7] 根据相关目录分别进行总结 UB Mesh架构介绍 - UB Mesh是全新AI数据中心网络架构 采用nD - FullMesh拓扑结构 从单板内1D全连接扩展至跨机柜的4D/5D拓扑 多数传输0 - 2跳内完成 降低信号传输开销 且最大限度利用短距离直接互连 降低成本和提高可靠性 [6] - UB Mesh主要组件通过统一总线Unified Bus连接 NPU和CPU配备UB IO控制器 还提供低基数和高基数交换机 实现多组件互连与资源动态池化 消除协议转换需要 降低开销 [6] UB Mesh机架架构 - UB Mesh机架架构以单机柜64个NPU为核心 机架内8个NPU板各集成8个NPU形成2D FullMesh互连 CPU独立部署 可实现CPU/NPU比例灵活调整及资源池化 机架间通过低基数交换机聚合接口 形成4D层级互连 四机架构成Pod后总规模达1024个NPU 还可构建8000卡规模的集群 [2] UB Mesh性能与成本效益 - 相同训练基准下 机架内2D - FM架构与Clos架构训练性能差距在7%以内 硬件成本低 机架间互连性能与Clos架构几乎相同 且可调整带宽比例匹配特定需求 [3] - 从系统全生命周期成本看 UB Mesh将网络基础设施成本比例从67%降至20% 节省98%的高性能交换机和93%的光模块 运营成本降低35% 较Clos实现2.04倍的成本效益提升 [3] 昇腾相关情况 - 华为正筹备昇腾920系列芯片 基于中芯国际6nm工艺打造 单卡算力超900TFlops(BF16) 内存升级到HBM3 单卡提供400GB/s带宽 [7] - 华为CloudMatrix 384超节点提供300PFlops的密集BF16计算能力 硅基流动基于该超节点及SiliconLLM运行的DeepSeek - R1单卡Decode吞吐突破1920 Tokens/s 比肩H100部署性能 [7] - 在国内算力需求高增 海外算力芯片供应不稳定背景下 昇腾有望获得国内算力芯片较大市场份额 打开国产AI服务器零部件成长空间 [7] 产业链相关公司 - 中芯国际、华丰科技、南亚新材、芯碁微装、深南电路、兴森科技、欧陆通 [7]
CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
机器之心· 2025-04-30 12:23
核心观点 - 大模型训练成本高昂,分布式训练算法效能低下是主要障碍之一,64%-87%概率因超参数设置不合理导致训练失败 [3] - 南京大学研发的UniAP算法首次实现层内与层间并行策略联合优化,最高比现有方法快3.8倍,比非优化算法快9倍 [7] - UniAP已适配国产AI计算卡海光DCU,为大模型训练提供降本增效解决方案 [8] 技术突破 - 采用混合整数二次规划建模,统一优化流水线并行、张量并行等策略,探索空间更大 [12] - 架构包含性能评估、代价模型、优化求解三阶段,自动生成最优并行计划 [15] - 时间代价模型和显存代价模型精准预估不同策略的开销,避免显存溢出 [16] 性能表现 - 在V100/TITAN XP/A100上测试BERT/T5/ViT等模型,吞吐量最高提升3.8倍 [26] - 策略优化时间从40分钟缩短至0.37分钟,效率提升107倍 [26] - 国产DCU测试显示可自动规避64%-87%无效策略,比手动搜索快9倍 [30] 行业影响 - 解决分布式训练易用性问题,用户无需理解流水线划分等复杂概念 [32] - 显著降低算力成本,相同硬件条件下训练速度提升带来3.8倍成本节约 [32] - 推动国产AI计算卡生态发展,提升硬件利用率和普及速度 [8][32]