Workflow
昇腾NPU
icon
搜索文档
宏观策略周报:2025世界人工智能大会描绘AI新未来,7月制造业PMI为49.3%-20250801
源达信息· 2025-08-01 18:47
核心观点 - 2025世界人工智能大会(WAIC)展示AI技术突破与全球合作愿景,聚焦算力集群、人形机器人等前沿领域,推动产业智能化升级[11][23][24] - 7月制造业PMI为49.3%,环比下降0.4个百分点,但生产指数(50.5%)仍处扩张区间,大型企业(50.3%)和新动能行业保持韧性[19][22] - 1-6月规模以上工业企业利润同比下降1.8%,但6月单月降幅收窄至4.3%(较5月改善4.8个百分点),装备制造业利润同比增长9.6%[14][17][18] 资讯要闻 政策动态 - 中共中央政治局会议部署下半年经济工作,强调"持续发力、适时加力"的宏观政策基调,重点包括提振消费(培育服务消费新增长点)、反内卷式竞争治理及统一大市场建设[9][10] 行业事件 - 2025WAIC规模创新高:展览面积突破7万平方米,覆盖AWS、Google、华为等300+企业,展示昇腾NPU集群(算力300 PFlops)等核心技术[11][23] - 国务院总理提出AI发展三大方向:普及普惠(智能平权)、创新合作(联合技术攻关)、共同治理(全球框架构建)[12][13] 市场表现 指数与行业 - 主要指数分化:科创100周涨0.5%(年初至今+22%),沪深300周跌1.8%[25][26][28] - 申万行业涨幅前三:医药生物(+2.9%)、通信(+2.5%)、传媒(+1.1%)[28] - 热点板块:光模块(CPO)周涨7.96%,创新药涨5.3%;稀土永磁跌5.62%[32] 产业数据 制造业 - 6月装备制造业利润同比+9.6%,其中汽车行业利润增长96.8%,电气机械/仪器仪表分别增长18.7%/12.3%[17][18] - 7月PMI结构:生产指数50.5%(环比-0.5pct),新订单指数49.4%(环比-0.8pct),原材料库存指数47.7%[22] 投资建议 - **新质生产力**:聚焦人工智能(算力集群/ASIC芯片)、人形机器人(关节模组技术)、创新药、低空经济等[3][23][24] - **消费复苏**:关注汽车(6月行业利润+96.8%)、家电、新消费场景[3][18] - **防御配置**:高股息资产、黄金(地缘避险需求)[3][33]
突发,午后跳水!超4200只个股下跌,周期股跌麻了!一则重磅消息,这个板块逆市拉升...
雪球· 2025-07-31 16:25
市场整体表现 - 上证指数跌1.18%,深证成指跌1.73%,创业板指跌1.66% [1] - 沪深两市成交额约19360亿元,较前一个交易日放量约917亿元,全市场超4200只个股下跌 [2] 周期股集体回调 - 钢铁、油气、能源金属、煤炭等板块领跌,钢铁板块跌超3%,有色金属、煤炭板块跌超2% [5] - 个股方面,安阳钢铁、包钢股份跌超7%,云南锗业、北方稀土大跌超5% [5] - 期货市场多个品种大幅回落,玻璃、焦煤主力合约大跌8%,多晶硅跌超7%,纯碱、工业硅跌超6%,碳酸锂跌近5% [7] - 广期所调整工业硅、多晶硅、碳酸锂期货部分合约交易限额,单日开仓量不得超过500手 [7][8] 国产替代走强 - 国家网信办约谈英伟达公司,要求其对H20算力芯片漏洞后门安全风险问题进行说明 [10] - 国产替代概念冲高,东芯股份3连板,寒武纪盘中一度涨超7%,华虹公司、海光信息、中芯国际等快速冲高 [10] - 摩尔线程、沐曦集成电路发布招股说明书,摩尔线程计划募资80亿元用于GPU研发及市场拓展 [12] - 华为发布CloudMatrix384AI超节点,算力提升50倍,推理吞吐量提升近4倍,时延降低至50ms以下 [13] 婴童概念延续强势 - 阳光乳业、安正时尚走出3连板,共同药业、汉商集团涨停 [15] - 中央财政设立"育儿补贴补助资金",今年初步安排预算900亿元左右 [16] - 北京市发布15项措施完善生育支持政策体系,包括建立生育补贴制度等 [16]
直线飙涨!刚刚,重磅突发!
券商中国· 2025-07-31 13:59
英伟达被约谈事件 - 国家网信办约谈英伟达,要求其对华销售的H20算力芯片漏洞后门安全风险问题进行说明并提交证明材料 [1][2] - 英伟达H20芯片被曝存在"追踪定位"和"远程关闭"技术,可能威胁中国用户网络安全和数据安全 [2] - 美国白宫批准英伟达恢复向中国出口H20芯片,该芯片是专为中国市场设计的降级版AI芯片,性能远低于国际市场主流H100 [4][5] - 此前美国对H20芯片实施禁售导致英伟达面临45亿美元库存损失和55亿美元减值,市值一度蒸发1600亿美元 [5] 国产替代概念股表现 - 寒武纪短线拉升一度涨超7%,成交额超47亿,华为海思概念股如神州数码涨超6%,卓易信息涨超4% [1][6] - 国内GPU企业摩尔线程和沐曦集成电路发布招股说明书,加速国产GPU发展 [6] - 摩尔线程科创板IPO申请获受理,计划募资80亿元用于GPU研发及市场拓展,2022-2024年研发费用累计达38亿元 [6] 华为AI算力突破 - 华为发布CloudMatrix384AI超节点,算力提升50倍至300pFLOPS,单卡推理吞吐量提升近4倍至每秒2300token [7] - 支持混合专家MoE大模型推理,实现384个专家并行推理,推理时延从100ms降低至50ms以下 [7] 国内GPU行业动态 - 摩尔线程自主研发全功能GPU,覆盖AI智算和图形渲染领域,采用自研MUSA架构和先进制程技术 [6] - 沐曦股份是国内高性能通用GPU领军企业,国产替代进程有望提速 [6]
华为首个开源大模型来了!Pro MoE 720亿参数,4000颗昇腾训练
华尔街见闻· 2025-06-30 15:27
华为盘古大模型开源 - 公司首次开源盘古大模型核心能力,包括70亿参数稠密模型和720亿参数混合专家模型(盘古Pro MoE),同时开放基于昇腾的模型推理技术 [1] - 盘古Pro MoE在昇腾800I A2上实现单卡1148 tokens/s推理吞吐,通过投机加速技术可提升至1528 tokens/s,优于同等规模稠密模型 [3][11] - 开源组件包括盘古Pro MoE 72B模型权重、基础推理代码及昇腾超大规模MoE推理代码,盘古7B相关资源将于近期上线 [4] 模型架构与技术特性 - 盘古Pro MoE基于MoGE架构构建,总参数量720亿,激活参数量160亿,针对昇腾硬件优化,在昇腾300I Duo服务器上提供高性价比推理方案 [4][11] - 引入"快思考"和"慢思考"双系统,简单问题快速响应,复杂问题深度推理,专家选择采用分组机制实现跨设备负载均衡 [9] - 预训练使用4000个昇腾NPU处理13万亿tokens语料,后训练通过SFT和RL增强推理能力,采用检查点合并优化模型 [11] 性能表现与基准测试 - 在千亿参数内模型中处于领先地位,MMLU-PRO英文基准显著超越Qwen3-32B、GLM-Z1-32B等主流稠密模型及Llama4-Scout MoE模型 [12] - 中文领域C-Eval(EM)得分91.1超越Qwen3-32B(89.2),CLUEWSC(EM)94.7微幅领先Qwen3-32B(94.6) [14][15] - 代码生成MBPP+(Pass@1)达80.2接近Qwen3-32B(82.0),数学推理MATH-500得分96.8超越Qwen3-32B(96.6) [15] 行业影响与生态整合 - 公司形成昇腾NPU芯片、MindSpore框架、盘古模型的垂直整合体系,被媒体评价为"工业奇迹",提供英伟达之外的替代方案 [18] - 国产大模型开源浪潮加速,MiniMax、阿里巴巴等厂商推动模型价格下降60%-80%,华为开源有望进一步促进行业应用普及 [20] - SuperCLUE测评显示盘古72B在开源榜排名第五(58.75分),超越Qwen3-14B/8B,仅次于DeepSeek和Qwen3-32B/235B [17]
训练大模型,终于可以“既要又要还要”了
虎嗅APP· 2025-05-29 18:34
华为Pangu Ultra MoE模型技术突破 - 华为推出参数规模高达718B的准万亿MoE模型Pangu Ultra MoE 该模型融合计算、通信和内存等多维度指标 在昇腾NPU平台上实现最佳平衡 [6] - 模型采用256个路由专家 每个token激活8个专家 总参数量718B 激活量39B 具有超大规模和超高稀疏比特性 [6] - 引入MLA注意力机制 有效压缩KV Cache空间 缓解推理阶段内存带宽瓶颈 优于传统GQA方案 [6] 模型架构创新 - 采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法 使梯度突刺率从1.54%下降到0.76% 相对下降51% [13][17] - 设计EP-Group负载均衡loss 相比主流Micro-batch方案在大部分任务上平均提升1.5个点 [20][21] - 采用单头MTP进行训练 后续复用参数扩展至多头结构 实现多Token投机推理 接受长度提升约38% [26][27] 训练方法优化 - 全流程采用dropless训练模式 避免Drop&Pad训推不一致问题 提升训练数据效率 [7] - 预训练阶段在6k到10k张NPU上进行 具备128k长序列能力 [8] - 采用迭代难例挖掘与多能力项均衡的奖励函数 参考GRPO算法提升训练效率与推理性能 [29][31] 昇腾硬件亲和设计 - 隐藏维度设置为7680维 精准匹配DaVinci芯片的16×16 MatMul单元 充分发挥计算潜力 [7] - 设置61层Transformer结构 预留额外MTP层空间 保障计算负载均衡的流水线调度 [7] - 路由专家数量设为256 在TP×EP并行下提升All-to-All通信效率 加速分布式训练 [7] 模型性能表现 - 在C-Eval评测中得分90.8 CLUEWSC得分94.8 MMLU得分91.5 整体效果优于主流模型 [9] - 在推理能力评测中 AIME2024得分81.3 GPQA-Diamond得分75.3 MATH500得分97.4 [9] - 强化学习训练系统有效解决了多能力协同提升问题 保持模型在数学、代码和通用能力的均衡表现 [31]
Bye,英伟达!华为NPU,跑出了准万亿参数大模型
量子位· 2025-05-08 12:04
华为昇腾NPU技术突破 - 华为基于昇腾国产算力平台成功训练7180亿参数MoE模型,突破万亿参数大模型训练瓶颈 [4][5] - 采用6000+块昇腾NPU集群实现长期稳定训练,算力利用率(MFU)达30%,较优化前提升58.7% [4][33] - 攻克负载均衡难、通信开销大、训练效率低等四大技术挑战 [8][9][10] 模型架构优化 - 采用细粒度专家加共享专家范式,通过hidden size调整提升算力利用率13% [12][13] - 设计TP8×EP4超融合并行方案,运用TP-extend-EP技术避免算子效率下降 [14] - 张量256对齐处理完美匹配16×16矩阵计算单元,释放NPU算力 [15] - 参数搜索空间从庞大范围缩小至10000个左右,建模仿真工具准确率达85% [17] 训练效率提升 - 创新EP组负载均衡损失算法,在20B先导模型验证效果 [24][26] - 采用dropless方案优化并行策略,空泡率从18.98%降至10.49% [33][39] - 实现16路流水线并行、8路张量并行、4路专家并行、2路虚拟流水线并行及48路数据并行 [35] - 专家组总数32组划分256个专家,任务分配不均衡控制在5%以内 [38][39] 通信与显存优化 - 分级EP通信技术减少跨机通信量,Allgather同步结合机内AlltoAll重分配 [42][43][44] - 自适应前反向掩盖策略实现机内外通信互相掩盖,缓解host bound问题 [46][48] - 细粒度模块重计算结合Tensor Swapping技术优化显存使用 [51] - 动态负载均衡机制通过贪心算法预测调整专家分配,MFU提升10% [53][54] 性能表现 - 在CLUEWSC(94.8分)、MMLU(91.5分)、AIME2024(81.3分)等基准测试表现优异 [61] - 与DeepSeek-R1等MoE模型相比,在数学推理(MATH500 97.4分)等任务展现竞争力 [62] - 专家差异化显著,共激活现象少,冗余度低,增强模型表达能力 [65][66][72] - 路由专家与共享专家贡献均衡,协同提升模型表征能力 [68][70] 行业影响 - 标志国产算力平台进入AI大模型训练世界领先行列 [73] - 展示中国科技自主创新能力,实现从跟跑到并跑甚至领跑的跨越 [74] - 为千行百业智能化转型提供技术支撑,助力占据科技革命制高点 [74]
英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练
量子位· 2025-04-15 11:54
文章核心观点 华为用纯昇腾集群训练出的盘古Ultra,参数量135B,训练零英伟达含量且无损失尖峰,性能优异,能与DeepSeek - R1竞争,采用关键技术并经多阶段训练实现高效训练 [1][2][5] 分组1:盘古Ultra性能表现 - 作为135B密集模型,达到同尺度最优,可与参数量更大的MoE模型竞争 [5] - 预训练评测中,在绝大部分英文基准任务和全部中文任务上性能最佳,优于Llama 405B、DeepSeek - V3等模型 [5] - 在MMLU、TriviaQA、GSM8K等数据集上展现卓越语言理解和推理能力 [6] - 指令调优后,在AIME 2024、MATH - 500等数学推理任务和LiveCodeBench等编程竞赛题上达SOTA水平 [7] - 综合超越GPT - 4o、Mistral - Large 2等模型,与DeepSeek - R1竞争激烈 [8] - 在Arena Hard、MMLU - pro等评测中表现优异 [9] 分组2:盘古Ultra关键技术 - 采用分组查询注意力(GQA)机制,含96个查询头和8个键值头 [12] - 模型架构改进采用深度缩放的Sandwich - Norm层归一化,消除训练loss尖峰,使训练平稳 [12][13] - 引入深度缩放机制,对Post - Norm中的放缩参数γ进行深度相关初始化 [16] - 采用TinyInit参数初始化策略,依据模型深度和宽度缩放初始化权重标准差,避免梯度问题,加速收敛 [18] - 针对Tokenizer优化,得到153376个token的平衡词表 [18] 分组3:盘古Ultra训练流程 - 训练分预训练、长上下文扩展和指令调优三个阶段 [20] - 预训练分通用、推理、退火三个子阶段,使用大量中英文通用语料,采用数据清洗和curriculum learning策略,用AdamW优化器并动态调参 [21][22] - 预训练后在最长128K的长上下文数据上训练,扩大RoPE基频实现长序列建模 [25] - 指令调优阶段用监督微调(SFT)和强化学习(RL)使模型适应下游任务 [26] 分组4:盘古Ultra训练设施与优化 - 使用8192个昇腾AI处理器组成的大规模计算集群,节点通过HCCS和RoCE网络互联 [27] - 采用数据并行、张量并行、序列并行和流水线并行等并行策略组合 [28] - 使用ZeRO分布式优化器,降低单个设备内存占用 [32] - 通过算子融合、通信计算重叠等技术,最小化通信开销,提升计算效率,实现52%以上算力利用率 [33][36]
中科大华为发布生成式推荐大模型,昇腾NPU可部署,背后认知一同公开
量子位· 2025-04-06 10:33
推荐系统发展趋势 - 生成式推荐范式HSTU将推荐参数扩展至万亿级别,验证了推荐领域的扩展定律,成为颠覆当前推荐系统的新范式[1][5] - 推荐系统发展经历四个阶段:手工设计特征和简单模型→复杂深度学习模型→重新关注特征工程→基于大语言模型扩展定律的生成式推荐大模型[4][5] - 扩展定律描述模型性能与参数规模、数据集规模和训练资源之间的幂律关系,通过增加模型深度和宽度可提升推荐效果[5] 生成式推荐模型架构对比 - 在ML-1M、ML-20M和AMZ-Books数据集上测试HSTU、Llama、GPT和SASRec四种架构,小参数时各架构表现相似,大参数时HSTU和Llama扩展性显著优于GPT和SASRec[7] - HSTU在16模块时ML-20M数据集HR@10达0.3520,NDCG@10达0.2079,MRR达0.1787,显著优于其他架构[8] - GPT在推荐任务表现未达预期,因其架构缺乏专为推荐设计的关键组件[7] 可扩展性来源分析 - 消融实验显示相对注意力偏移(RAB)是关键组件,移除后HSTU性能明显下降(32模块HR@10从0.3298降至0.3149)[9][10] - 为SASRec同时引入HSTU的RAB和调整残差连接后,其扩展性显著改善(32模块HR@10从0.0301提升至0.3182)[11][12] - 残差连接模式与RAB的结合是传统推荐模型获得扩展性的关键因素[11] 复杂场景与排序任务表现 - HSTU在多域联合训练中表现优于单域独立训练,在Digital Music和Video Games等小规模场景扩展性显著[13] - 排序任务中HSTU在ML-20M数据集32模块时AUC达0.7914,优于DIN的0.7247和Llama的0.7107[14][15] - 缩减embedding维度提升小数据集性能(ML-1M和AMZ-Books),但降低大数据集ML-20M性能[17] 技术突破与行业应用 - 中科大与华为合作开发推荐大模型部署方案,首次在国产昇腾NPU上成功部署[2] - Meta提出的HSTU框架引发生成式推荐大模型研究热潮,参数规模达万亿级别[1][5] - 未来研究方向包括数据工程、Tokenizer优化和训练推理效率提升[18]