Pangu Pro MoE

搜索文档
套壳、续训、洗水印?如何看待疑似某厂员工的自爆?
虎嗅· 2025-07-07 17:55
事件时间线梳理 - 6月30日华为开源盘古-7B稠密模型和Pangu Pro MoE 72B [2] - 7月4日GitHub账号@HonestAGI发布论文指控Pangu Pro MoE与阿里Qwen-2.5 14B高度相似 [2] - 7月5日华为官方声明否认抄袭并质疑论文方法学 [2] - 7月6日自称盘古四纵成员发布长文爆料内部"续训套壳"等问题 [2] - 7月7日科技媒体跟进报道并展开模型权重实测 [2] 技术争议焦点 - 论文采用参数"指纹"法比对认为模型相似度达可疑程度 [2] - 争议缺乏原始训练日志、算力租用凭证等硬核证据 [3] - 爆料涉及系统性模型套壳造假和高层知情默许等严重指控 [24] 公司治理问题 - 信息通道失灵导致基层负面情绪长期积累 [8] - 经理层未能有效处理不公平评价引发的负能量 [6] - 内部投诉机制失效使技术成果被窃取问题未获解决 [11] - 流程管理存在"只许州官放火"的双重标准现象 [42] 行业类似案例 - 基因测序巨头Illumina工程师举报设备缺陷导致FDA强制召回 [13][15] - 硅谷AI芯片公司Lightmatter CTO爆料创始人造假遭法律反制 [14][16][30] - 医疗AI公司Zebra员工举报数据造假被刑事调查 [17][19][20][21] 爆料内容分析 - 包含大量内部技术细节如模型迭代路径、训练问题等核心信息 [27] - 指控内容涉及管理流程失效、人才流失等系统性问题 [32] - 主观推测成分较多可能引发法律风险如诽谤或商业秘密诉讼 [25] 职场管理启示 - 负能量积累会导致核心人才流失和团队士气崩溃 [32][33] - 汇报能力不足可能导致技术成果被其他团队侵占 [34] - 存在特权通道现象破坏管理公平性 [42] - 流程繁复与研发效率需要平衡 [37][38] 个人风险警示 - 实名举报可能面临民事诉讼索赔和刑事风险 [25] - 匿名性在大数据排查面前非常脆弱 [28] - 建议立即停止信息扩散并清理可追溯痕迹 [29] - 保存证据需在律师指导下隐秘进行 [36]
华为盘古团队:否认抄袭!
程序员的那些事· 2025-07-06 20:33
华为盘古大模型开源事件 - 华为于6月30日宣布开源盘古大模型(Pangu Pro MoE 72B)和基于昇腾的模型推理技术,旨在推动大模型技术研究与创新发展,加速AI在千行百业的应用[1] - 盘古大模型被指与阿里巴巴通义千问Qwen-2.5 14B模型参数结构"惊人一致",引发技术原创性与开源合规性讨论[1] 技术相似性质疑 - 7月4日GitHub研究指出,盘古Pro MoE模型与阿里通义千问Qwen-2.5 14B模型的注意力参数分布存在高度相似性,平均相关性达0.927[2] - 研究在盘古开源代码文件中发现标注"Copyright 2024 The Qwen team, Alibaba Group",质疑复制阿里代码时未删除版权声明[2] 华为技术团队回应 - 盘古团队否认抄袭指控,认为评估方法不科学[3] - 强调技术原创性:盘古Pro MoE是全球首个面向昇腾硬件平台设计的同规格混合专家模型,创新提出分组混合专家模型(MoGE)架构[3] - 说明开源合规性:承认部分基础组件参考了业界开源实践,但严格遵循开源许可证要求,清晰标注版权声明[3] - 重申开源理念:华为坚持开放创新,尊重第三方知识产权,提倡包容、公平、开放的开源理念[3]
网传华为盘古大模型疑似抄袭通义千问,盘古团队否认
快讯· 2025-07-04 20:02
近日,一项发布于GitHub的研究引发业界热议,该研究的作者认为,华为推出的盘古大模型(Pangu Pro MoE)与阿里巴巴发布的通义千问Qwen-2.514B模型在参数结构上存在"惊人一致"。该作者通过实证比 较,发现Pangu Pro MoE模型与Qwen-2.514B模型在注意力参数分布上的平均相关性高达0.927,远超其 他模型对比的正常范围。网友们认为,这可能意味着Pangu Pro MoE存在抄袭。据悉,盘古大模型团队 在GitHub中进行了回应,否认抄袭指控,并且认为该作者的评估方法不科学。针对此事,截止发稿前, 华为官方暂未置评。(新浪科技) ...
大模型推理,得讲性价比
虎嗅APP· 2025-06-06 18:10
华为MoE架构技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,大幅降低计算开销,在SuperCLUE千亿内模型并列国内第一[3] - 通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化,Pangu Pro MoE推理性能提升6~8倍[3] - 在昇腾300I Duo上单卡吞吐可达321 tokens/s,在昇腾800I A2上更可飙升至1528 tokens/s[3] 分层混合并行(H2P)优化 - 提出创新性的H2P分层混合并行策略,根据任务特性"分工开小会",让每个部分在各自的通信域内高效执行[6] - Attention模块采用DP2+TP4并行方案,Expert模块采用TP2+EP4策略,共享专家以TP8全芯并行[6] - 相比纯TP方案,Decode吞吐性能提升33.1%[7] 通信瓶颈优化(TopoComm) - 提出SlimRing算法合并相邻通信步的后同步与前同步操作,同步次数降低35%[10] - 提出NHD算法通过拓扑亲和的分级通信等效提高链路有效带宽21%[10] - 引入INT8 AllGather + FP16 Reduce-Scatter混合量化通信策略,实现通信数据压缩25%,AllGather通信耗时降低39%[10] 计算&通信融合(DuoStream) - 提出DuoStream算子级多流融合通算优化方案,实现计算与通信的细粒度并发调度[11] - 构建GMMRS与AGMM两大融合策略,克服通信与数据搬运和计算之间的瓶颈[11] - 显著提升模型在昇腾平台上的推理效率,最大化释放硬件资源潜能[11] 融合算子优化 - 打造MulAttention和SwiftGMM两支精锐融合算子特种部队[16] - MulAttention实现Attention计算加速4.5倍,达成89%以上的数据搬运流水占用率[17] - SwiftGMM实现GMM计算加速2.1倍,解码阶段整网推理时延降低48.7%[20] 推理算法加速 - 提出专家动态剪枝算法PreMoE,实现推理吞吐提升10%+[25] - 提出TrimR反思压缩算法,推理步数降低14%[27] - 提出SpecReason反思投机算法,推理吞吐提升30%[27] 昇腾平台性能表现 - 昇腾800I A2平台在BS=456时单卡吞吐达1148 tokens/s,较72B和32B稠密模型分别提升97%和18%[30] - 结合MTP投机推理技术,单卡BS可提升至146,最高吞吐突破1528 tokens/s[30] - 昇腾300I Duo平台在BS=128时单卡吞吐最高达321 tokens/s,提供更具性价比的MoE推理解决方案[32]
MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
机器之心· 2025-06-06 17:36
混合专家模型技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,显著降低计算开销并在SuperCLUE千亿内模型评测中并列国内第一 [2] - 通过软硬协同优化实现推理性能提升6~8倍,昇腾300I Duo单卡吞吐达321 tokens/s,昇腾800I A2单卡吞吐飙升至1528 tokens/s [3] - 采用分层混合并行(HP)策略,Decode吞吐性能相比纯TP方案提升33.1%,通过模块化分工优化通信效率 [5][6][7] 通信与计算协同优化 - 提出TopoComm优化方案,同步次数降低35%,链路有效带宽提高21%,通信数据压缩25%,AllGather通信耗时降低39% [9] - 开发DuoStream多流融合方案,实现计算与通信细粒度并发调度,解决Expert模块通信瓶颈 [12] - 构建GMMRS与AGMM融合策略,关键通信路径流水掩盖,显著提升硬件资源利用率 [12] 高性能算子创新 - 开发MulAttention融合算子,Attention计算加速4.5倍,数据搬运流水占用率89%,访存带宽利用率87% [16] - 推出SwiftGMM矩阵计算引擎,GMM计算加速2.1倍,解码阶段整网推理时延降低48.7% [18] - 算子优化实现KV缓存搬运效率提升,路由专家权重搬运瓶颈突破 [15][16][18] 推理算法创新 - 专家动态剪枝算法PreMoE保持模型准确率同时提升推理吞吐10%+ [21] - TrimR反思压缩算法通过小模型监测大模型思考过程,推理步数降低14% [22] - SpecReason反思投机算法结合大小模型优势,推理吞吐提升30% [22] 昇腾平台性能表现 - 昇腾800I A2平台4卡部署下,大并发场景单卡吞吐1148 tokens/s,较72B/32B稠密模型提升97%/18%,MTP技术下最高吞吐达1528 tokens/s [24] - 昇腾300I Duo平台4卡部署实现小并发延迟50ms,大并发单卡吞吐201 tokens/s,MTP技术下吞吐最高321 tokens/s,提供高性价比解决方案 [26] - 预填充阶段2卡2路并发实现2k序列输入延迟1.94s,单卡吞吐1055 tokens/s [26]
生于昇腾,快人一步:盘古Pro MoE全链路优化推理系统揭秘
雷峰网· 2025-06-06 17:26
华为软硬协同深度融合优化,强强联合打通推理系统全链路,树立MoE推理标杆。 编辑丨李希 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成为大模型推理提效的关键路径。华为团队重磅推出昇腾平台原生设 计的Pangu Pro MoE 72B模型,大幅降低计算开销,并在SuperCLUE千亿内模型并列国内第一。通过系统级软硬协同优化、高性能算子融合优化、模型原 生投机算法优化,Pangu Pro MoE推理性能提升6~8倍,在昇腾300I Duo上单卡吞吐可达321 tokens/s,实现极致性价比;在昇腾800I A2上更可飙升至 1528 tokens/s,全面释放硬件潜力,打造极致的推理体验。 技术报告地址:https://gitcode.com/ascend-tribe/ascend-inference-system/tree/main/ 01 推理效率拉满:全链路推理系统优化,释放昇腾澎湃算力 在大模型的分布式推理中,每个计算节点都像一个团队成员,信息流通、协调协作不可避免。就像一场跨部门的大项目,若每一步都开"全员大会",沟通成本 高、效率低,项目推进自然慢半拍。聪明的 ...