大模型训练

搜索文档
训练效率提升25%、成本降23%!上海期智研究院、算秩未来联合推出MegatronApp:专为万亿参数大模型训练打造的系统工具包
AI前线· 2025-07-28 14:47
核心观点 - 上海期智研究院联合算秩未来发布国内首个针对Megatron-LM的开源增强工具链MegatronApp,聚焦高可用、自适应、高效率和可观测四大目标 [2][3] - 该工具通过慢节点识别、智能调度、计算解耦和可视化诊断等技术,在金融行业实测中实现训练效率提升25%、成本降低23% [5] - 在万亿参数模型训练场景下,细节优化可节省千卡GPU资源,对应数十万元成本 [1] 技术模块 MegaScan慢节点检测 - 通过毫秒级CUDA Events捕捉GPU执行状态,3分钟锁定慢节点,故障定位效率提升超100% [9][15] - 在256张4090集群实测中仅需76秒生成根因报告,对训练时长影响低于1.3% [15] - 采用通信同步特性对齐百万级事件,实现跨节点/设备的统一检测与归因分析 [9] MegaDPP动态流水线调度 - 重构传统1F1B策略,首创深度优先(DFC)和广度优先(BFC)双模式动态切换 [17][18] - 通过共享内存+RDMA组合通信技术,使流水线发送窗口扩展2.6倍,数据并行缩减窗口扩展2.4倍 [20] - 实际降低网络带宽需求50%,显存高峰显著缓解 [17][18] MegaFBD计算解耦 - 将前向/后向计算物理分离,单卡有效TFLOPs提升18.7% [24][30] - 采用虚拟Rank+物理Rank双层调度结构,避免资源竞争 [22] - 轻量级通信协调机制实现百卡规模稳定运行,同步复杂度仅线性增长 [26] MegaScope可视化系统 - 支持Attention/QKV/MLP模块热图回放、Token生成过程逐帧查看等交互功能 [33] - 异步缓存与在线聚合算法使性能损耗控制在1%以内 [37] - 提供扰动注入功能,可模拟通信异常或施加噪声干扰,响应时间短于3秒 [34][36] 性能表现 - 在8卡节点200G IB网络测试中,通信效率提升显著 [20][23] - Llama-3 13B模型训练场景下单卡算力利用率提升18.7% [24][30] - 整体端到端训练效率提升25%,成本节约效果显著 [5][38][40] 行业意义 - 填补国内Megatron-LM生态工具链空白,成为大模型训练系统基座 [3][40] - 开源项目地址已发布,推动社区协作优化 [3][42] - 适用于万亿参数规模训练场景,每1%效率提升对应数十万元成本节约 [1][40]
连续套现14亿元,黄仁勋急着“下车”?
36氪· 2025-07-23 20:01
黄仁勋减持行为 - 黄仁勋在7月18日减持英伟达7.5万股股票,套现1294万美元(约9267万人民币),当日英伟达盘中股价创历史新高至174.25美元/股[2] - 两月内连续减持约20次,累计减持135万股,套现超过2亿美元(约14.35亿元人民币)[3][5] - 7月份分12次减持90万股,套现约1.5亿美元[6] - 减持后仍直接持有8000万股,通过信托等间接持有9亿股(占总股本3.77%),保持绝对话语权[5] 英伟达市场表现 - 7月9日英伟达总市值短暂突破4万亿美元(约28.7万亿元人民币),成为全球首家达到该里程碑的公司[3] - 2025年第一季度占据独立显卡市场92%份额,环比增长8.5个百分点,AMD份额下降7.3个百分点至8%[8] - 数据中心业务订单排期已至2026财年第二财季,Blackwell架构产品发布提振市场信心[8] - 美国政府解禁H20芯片后,中国客户大批订单推动股价在7月中旬创历史新高[8] 公司经营环境 - 美国政策限制导致正常经营受阻,欧盟提出AI安全标准、合规及伦理审查要求[10] - 2025年4月7日股价曾跌破87美元(较1月初153美元接近腰斩),4月9日H20芯片出口许可消息带来转机[10] - 生成式AI和大模型训练需求扩张使GPU成为稀缺产品,但面临华为等竞争对手追赶[11] 行业竞争格局 - 英伟达在独立显卡市场形成绝对优势,与AMD和英特尔差距持续拉大[8] - 黄仁勋承认华为AI芯片替代英伟达"只是时间问题"[11]
大数据ETF(159739)上涨超1%,H20芯片恢复对华销售,大模型训练迎来利好
新浪财经· 2025-07-16 10:31
市场表现 - 中证云计算与大数据主题指数(930851)上涨1 68% 成分股新易盛(300502)上涨12 90% 云天励飞(688343)上涨5 35% 税友股份(603171)上涨4 34% [1] - 大数据ETF(159739)上涨1 41% 最新价报1 22元 近1周累计上涨5 99% 涨幅排名可比基金1/5 [1] 行业动态 - 英伟达获准向中国出售H20芯片 多家互联网大厂表示积极购买 对云计算服务和大模型训推带来利好 [1] - 海外token需求持续增长 AI算力与应用实现正向循环 [2] - AI Agent商业模式从"提供工具"向"交付价值"转变 垂直行业know how型卡位公司投资机会提升 [2] 指数成分 - 中证云计算与大数据主题指数选取50只业务涉及云计算服务 大数据服务及相关硬件设备的上市公司证券 [2] - 前十大权重股合计占比51 84% 包括科大讯飞(002230) 中际旭创(300308) 新易盛(300502)等 [2] 投资建议 - 建议关注国内NV链相关企业 字节生态合作伙伴 以及AI Agent布局领先的垂直领域卡位SAAS企业 [2] 产品信息 - 大数据ETF(159739)场外联接A 021090 联接C 021091 联接I 022882 [3]
科创板年内新增最大IPO融资项目拆解:摩尔线程的商业化初探
华尔街见闻· 2025-07-03 21:09
国产GPU行业竞争格局 - "国产GPU四小龙"中摩尔线程和沐曦集成科创板IPO已获受理,壁仞科技、燧原科技、格兰菲智能处于IPO辅导阶段,行业集体迈向资本化[1] - 摩尔线程计划募资80亿元,为2024年上半年科创板最大IPO募资规模,沐曦集成募资额约为其一半[5][6][7] - 行业竞争焦点在于谁能率先成为"国产GPU第一股",市场高度关注[8] 摩尔线程核心竞争力 - 核心团队来自英伟达,MTT S80显卡单精度浮点算力接近RTX 3060,千卡GPU智算集群效率超过国外同代产品[2] - 2024年收入达4.38亿元同比增长超2倍,AI智算产品首次创收3.36亿元占比超7成[3][11] - 研发投入达13.59亿元,净亏损14.92亿元但同比减亏10%[4] 产品与技术进展 - 产品线覆盖AI智算、专业图形加速、桌面级图形加速和智能SoC,形成全功能布局[9][10] - 2023年推出第三代GPU芯片MTT S4000,2024年披露新品MTT S5000,FP32算力达32TFLOPS超越A100但低于H100和MI325X[12][13][15][17] - 基于MTT S5000构建的千卡集群效率超过国外同代产品,计划投资25亿元研发新一代AI训推一体芯片[16] 商业化策略与财务表现 - 消费级产品MTT S80/S70累计收入仅0.72亿元,因国际品牌竞争采取低价策略导致毛利率为负[20] - 转向聚焦B端市场,AI智算和专业图形加速板卡毛利率分别达90.7%和83.13%,显著高于沐曦集成同类产品[21][22] - 在手订单4.4亿元,管理层预计2027年可实现盈利[23][24] 行业技术发展趋势 - FP8低精度浮点格式成为技术突破方向,可在保持低精度同时实现准确性、效率、内存和能耗的平衡[14][15] - 摩尔线程通过支持FP8计算与存储实现训练加速和内存占用降低,与BF16基线相比精度损失控制在0.25%以内[15]
江苏发布创新提升数字贸易政策措施
新华日报· 2025-07-03 05:40
江苏省数字贸易发展规划 - 到2030年全省服务贸易规模目标6000亿元 数字交付服务贸易目标3000亿元 占比50% [1] - 着力推进数字贸易制度型开放 打造数字贸易集聚生态圈 对接高标准经贸规则 [1] - 推进中新数字贸易合作试点 探索数字贸易便利化措施 推动江苏自贸试验区数据出境负面清单 [1] - 积极创建国家服务贸易创新发展示范区 国家数字贸易示范区 完善南京软件谷等载体基础设施 [1] 产业赋能措施 - 发展数字产品贸易 做强南京无锡苏州国家对外文化贸易基地 推动动漫游戏影视产品出口 [2] - 扩大数字技术贸易 推进高端软件发展 实施人工智能+行动计划 升级数字服务贸易 [2] - 探索跨境电商新场景 推动数字订购贸易 联动开放平台 [2] - 激活数据产业潜能 争创国家级可信数据空间试点 发展来数加工离岸数据加工大模型训练新业态 [2] 服务贸易重点领域 - 增强国际运输服务能力 优化国际航线网络 建设智慧港口和智慧航道 [2] - 提升旅游服务国际竞争力 利用入境过境免签政策 优化口岸团体旅游签证 [2] - 加快发展国际教育服务 打造活动品牌 支持境外办学 [2] - 支持人力资源地理信息等专业服务贸易拓展国际合作 [2] - 扩大优质服务进口 吸引国际资源在多领域先行先试 [2]
华升股份(600156.SH)拟购买易信科技100%股份 6月24日复牌
智通财经网· 2025-06-23 16:57
交易概况 - 华升股份拟通过发行股份及支付现金方式收购易信科技100%股份并募集配套资金 审计评估工作未完成 交易价格未确定 [1] - 公司股票将于2025年6月24日复牌 [1] 标的公司业务 - 标的公司专注于AIDC领域 提供绿色算力基础设施全生命周期服务 包括智算中心规划设计 建设运维 节能系统研发 算力池化调度运营 [1] - 业务覆盖人工智能 大模型训练等场景 以技术创新驱动算力基础设施低碳化 高密度化 智能化升级 [1] 战略布局 - 标的公司已在深圳百旺信 惠州大亚湾 广州南沙 海口运营多个高性能智算中心 湖南郴州在建绿色智算中心 计划拓展河南四川 [1] - 以湖南绿色智算中心为核心 加快中部高密度高能效算力节点布局 形成华南 华中 华北 西南区域化服务能力 [1][2] - 计划构建辐射中部 承东启西的全国智算资源体系 承接低空经济 人工智能 工业互联网 金融科技等高强度算力需求 [2] 战略意义 - 交易符合国家新型信息基础设施建设和新质生产力培育导向 [1] - 标的公司具备中部区域算力资源优先布局优势 将提升我国智能算力基础设施区域协调能力与整体效率 [1][2] - 助力华升股份融入全国算力网络 赋能新质生产力高质量发展 [2]
成立不到五年,这家GPU厂商即将A股上市
搜狐财经· 2025-06-19 18:54
上市进展 - 摩尔线程于2024年6月10日率先完成上市辅导 进入"辅导验收"阶段 成为国产GPU"四小龙"中进度最快的企业 [2] - 公司于2024年11月在北京证监局备案 由中信证券开展两期辅导 已建立符合上市公司标准的治理制度与财务内控体系 [3][4] - 2024年完成股份制改造 注册资本从2441.32万元增至3.3亿元 为IPO铺路 [12] 技术产品 - 推出三代全功能GPU芯片:"苏堤"(首代MUSA架构 支持AV1编解码)、"春晓"(220亿晶体管 性能较苏堤提升3-5倍)、"曲院"(性能较春晓再提升3-5倍) [7][8] - 2024年7月推出万卡级"夸娥智算集群"解决方案 支持FP8计算精度 可训练GPT/DeepSeek等主流大模型 [8][9] - 累计获得425项授权专利 构建覆盖AI芯片/游戏显卡/集群的B+C端产品线 [7] 融资历史 - 成立至今完成6轮融资 累计金额达数十亿元 投后估值240亿元(2022年B轮) [10][11] - 主要投资方包括红杉中国/五源资本/深创投/字节跳动/中移数字新经济基金等 2023年B+轮单轮超20亿元 [11] 创始人背景 - 创始人张建中为英伟达前全球副总裁及中国区总经理 拥有20年GPU行业经验 [7]
大模型训练,一半时间在摸鱼?
虎嗅APP· 2025-06-03 17:58
华为MoE架构优化技术 核心观点 - 华为提出MoGE架构优化方案,克服传统MoE模型负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署 [1] - 公司通过Adaptive Pipe通信掩盖框架和EDPB全局负载均衡技术,显著提升MoE模型训练效率,在Pangu Ultra MoE 718B模型8K序列训练中实现72.6%的吞吐提升 [24][25] 技术方案细节 MoE训练效率挑战 - 专家并行(EP)导致计算单元空闲等待通信,模型规模较大时All-to-All通信造成50%以上训练时间浪费 [4][5] - 负载不均现象突出:热专家调用频率达冷专家数倍,不同模型层计算量差异明显 [5][6] DeployMind仿真平台 - AutoDeploy仿真平台通过三维建模和昇腾硬件映射,1小时内完成百万次训练场景模拟,并行策略选择精度达90% [9] - 针对Pangu Ultra MoE 718B模型,自动生成TP8/PP16/VPP2/EP32最优并行方案 [9] Adaptive Pipe通信优化 - 层次化All-to-All通信将跨机器传输数据块拷贝量减少50%,机内高速通道利用率提升1倍 [11] - 虚拟流水线并行技术使内存占用减半,实现98%以上EP通信掩盖率 [12][13] EDPB负载均衡 - 专家预测动态迁移技术通过多目标优化实现专家智能调度,包含预测先行/双层优化/智能触发三重机制 [18] - 数据重排和虚拟流水线层间均衡技术分别解决Attention计算和Stage间等待问题 [20][21] - 在基础优化上额外带来25.5%吞吐提升 [16][25] 行业技术演进 - MoE模型从加拿大理论雏形到硅谷工程突破,现由中国企业主导架构创新,华为MoGE架构体现"多快好省"技术路线 [1] - 昇腾生态通过系列技术披露推动开放协作,加速大模型本土化发展 [1][31]
不用GPU,大模型每2秒吃透一道高数大题!这就是华为的实力
雷峰网· 2025-05-30 17:48
华为昇腾与Pangu Ultra MoE技术创新 - 公司通过"昇腾+Pangu Ultra MoE"组合实现国产算力与模型全流程自主可控训练闭环,集群训练系统性能达行业领先水平[4] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[5] - 首次披露高效打通大稀疏比MoE强化学习后训练框架的关键技术,推动RL后训练进入超节点集群时代[6][7] MoE模型训练技术痛点与解决方案 - 当前MoE训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载不均、算子调度开销大、训练流程管理复杂、大规模扩展受限[10][11] - 公司提出三阶段解决方案: - 提升训练集群利用率:通过智能并行优化、分层All-to-All通信去冗余、EDP全局负载均衡策略,将专家并行通信开销降至<2%[14][18][19] - 释放昇腾单节点算力:采用昇腾亲和算子加速、Host-Device协同下发优化、Selective R/S内存手术方案,实现MBS翻倍和70%激活值内存节省[22][25][27] - RL后训练创新:RL Fusion训推共卡技术支持多维并行策略动态切换,准异步机制StaleSync使训练吞吐提升50%[28][30] Pangu Ultra MoE模型性能突破 - 模型架构:7180亿参数,61层Transformer(3稠密层+58 MoE层),256路由专家+1共享专家,隐层维度7680[35] - 预训练性能:6K-10K卡昇腾800T A2集群实现8K序列长度下41% MFU,预计CloudMatrix 384超节点可支撑MFU>50%[35] - 后训练性能:CloudMatrix 384超节点实现35K Tokens/s吞吐,支持4K卡集群扩展,等效每2秒完成高数大题级推理任务[36] 技术架构创新细节 - 并行策略:采用16路流水线并行+8路张量并行+32路专家并行+2路虚拟流水线并行的混合架构[15] - 通信优化:分层专家并行通信结合虚拟流水线并行掩盖策略,实现计算通信深度融合[18] - 内存管理:构建自适应内存优化框架,支持模块级到张量级的细粒度内存调配[26] - 训推协同:支持分离部署/训推共卡/全共卡三种模式,秒级完成状态转换[28][33]
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 17:38
华为Pangu Ultra MoE大模型技术突破 - 华为通过"昇腾+Pan gu Ultra MoE"组合实现国产算力与国产模型全流程自主可控的训练闭环,集群训练系统性能达到行业领先水平[3] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[4] - 首次披露在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术[4] 技术挑战与解决方案 - MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载分布不均、算子调度开销过大、训练流程管理复杂、大规模扩展受限[7][8][10][11][12][13] - 提升训练集群利用率三招:建模仿真驱动的智能并行优化、Adaptive Pipe前反向通算掩盖、EDP Balance全局动态负载均衡[15][16][17][20][22][23] - 释放昇腾单节点算力三招:昇腾亲和的训练算子加速、Host-Device协同的算子下发优化、Selective R/S精准的内存手术方案[26][28][29][30] 强化学习后训练创新 - 首次披露RL Fusion训推共卡技术,支持训练推理共卡、全共卡等多种灵活部署模式,实现RL后训练集群利用率翻倍[33][34] - 设计准异步机制StaleSync和分布式数据队列DistQueue,系统整体训练吞吐提升50%[36] - 在Pangu Ultra MoE昇腾CloudMatrix 384超节点集群后训练中实现每超节点35K Tokens/s高吞吐能力,支持高效扩展超过4K卡集群[39] 模型性能与架构 - Pangu Ultra MoE模型拥有7180亿参数,包含61层Transformer,前3层为稠密层,后58层为MoE层[38] - 模型隐层维度达7680,配备256个路由专家和1个共享专家,专家隐层维度为2048[38] - 在序列长度为8K、万卡训练集群条件下,模型算力利用率(MFU)达到41%,预计可支撑训练集群MFU>50%[38]