Workflow
昇腾CloudMatrix 384
icon
搜索文档
大摩:AI GPU芯片真实差距对比,英伟达Blackwell平台利润率高达77.6%,AMD表现不佳
美股IPO· 2025-08-19 08:31
AI推理解决方案运营表现 - 英伟达GB200 NVL72平台在100兆瓦AI工厂中实现最高利润率77.6%,预计利润达35亿美元 [3] - 谷歌TPU v6e pod以74.9%利润率排名第二,AWS Trn2 UltraServer利润率为62.5%,华为昇腾CloudMatrix 384平台利润率为47.9% [3] - AMD MI355X平台利润率为-28.2%,MI300X平台低至-64.0%,表现显著落后 [4] 芯片每小时收入对比 - 英伟达GB200 NVL72芯片每小时收入达7.5美元,HGX H200芯片为3.7美元,显著高于行业平均水平 [4] - 华为昇腾CloudMatrix 384平台GPU每小时收入1.9美元,AMD MI355X平台仅1.7美元 [4] - 其他芯片每小时收入集中在0.5至2.0美元区间,英伟达GB200 NVL72收入为行业平均值的3-15倍 [4][7] 供应商竞争力分析 - 英伟达在利润率与芯片收入两项指标均占据绝对领先地位 [3][4] - 谷歌自研TPU与AWS定制服务器表现优于多数第三方解决方案 [3] - AMD在AI推理领域面临严重亏损,技术或成本控制存在明显短板 [4]
华为的准万亿大模型,是如何训练的?
虎嗅APP· 2025-05-30 18:18
华为MoE架构技术突破 - 华为提出MoGE架构优化方案,克服传统MoE负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署[1] - 昇腾+Pangu Ultra MoE组合实现国产算力与模型全流程自主可控,预训练阶段万卡集群MFU达41%,后训练单超节点吞吐35K Tokens/s[2] - 公司首次披露昇腾CloudMatrix 384超节点上大稀疏比MoE强化学习后训练框架关键技术,推动RL后训练进入超节点集群时代[2] 当前MoE训练系统六大挑战 - 并行策略配置困难:多种并行策略组合与稀疏激活导致负载不平衡,难以人工优化[3] - All-to-All通信瓶颈:大规模token路由交换占用带宽,造成计算资源空闲等待[4] - 系统负载分布不均:注意力机制序列长度差异、专家激活频率不平衡等多层次不均衡[4] - 算子调度开销过大:动态路由引入高频小规模算子操作,NPU利用率显著降低[4] - 训练流程管理复杂:多模型实例与多任务场景增加资源分配难度[4] - 大规模扩展受限:参数重新映射机制与复杂数据通信制约部署规模[4] 训练集群利用率提升方案 - 智能并行优化:通过建模仿真框架自动确定最优部署配置,包括16路流水线并行、8路张量并行等[7] - Adaptive Pipe通信优化:分层All-to-All通信去冗余,专家并行通信开销降至<2%[10] - EDP全局负载均衡:专家负载预测+动态调节+注意力数据重排技术,解决多通信域负载不均[12] 昇腾单节点算力释放 - 训练算子加速:针对FlashAttention等关键算子优化,提升75%以上计算耗时算子性能[15] - Host-Device协同优化:分层消除同步型/系统性Host-Bound问题,MoE训练中Host-Bound占比<2%[16] - 内存精准管理:通用化重计算+Swap机制实现70%激活值内存节省,MBS翻倍仍稳定[17] RL后训练关键技术 - RL Fusion训推共卡技术:支持多并行策略动态切换,秒级完成状态转换,集群利用率翻倍[20] - 准异步机制StaleSync:容忍梯度陈旧性,系统吞吐提升50%[21] - 分布式数据队列DistQueue:实现多任务数据拆分与动态读取,缓解数据阻塞[21] Pangu Ultra MoE模型性能 - 7180亿参数规模,61层Transformer含58层MoE,隐层维度7680配备256路由专家[26] - 预训练阶段6K-10K卡集群MFU达41%,预计未来可扩展至MFU>50%[26] - RL后训练实现每超节点35K Tokens/s吞吐,4K卡集群等效2秒完成高数大题解析[27]
智通决策参考︱5月行情值得期待
搜狐财经· 2025-05-06 08:53
市场趋势 - 四月最后一天恒指上涨为五月行情提供指引 [1] - 长假期间海外市场上涨概率大 美股受AI巨头数据超预期及非农数据提振 [2][3] - 美联储5月7日利率决议预期按兵不动 离岸人民币升穿7.20创半年新高 亚洲货币集体走强 [4] - 国内财政赤字率4% 规模5.66万亿元同比增1.6万亿元 政策工具箱空间充足 [4] 科技与AI动态 - 鸿蒙PC版即将发布 构建自主可控生态改变PC市场格局 [5] - 小米开源轻量化大模型MiMo(7B参数) 适配手机/汽车端侧部署 [5] - 人形机器人2026年或达10万台量产门槛 工业应用加速(Walker S已进入汽车工厂实训) [5][7] - 国内AI加速发展:阿里发布Qwen3 腾讯重组混元团队 DeepSeek开源DS-Prover-V2-671B [9] - 美国封锁中国AI升级 众议院要求DeepSeek限期答复技术细节 [8] 公司业绩与业务 - 优必选2024年营收13.05亿元(+23.7%) 教育机器人收入3.63亿元(+4.6%) 定制机器人收入1.41亿元(+126.1%) [6] - 海外收入4.28亿元(+85.5%) 存货4.61亿元(+10.7%) 合同负债0.61亿元(+4.2%)显示订单增长 [7] - 技术突破:VSLAM算法/机器视觉/运动控制结合AI助推产业化 [8] 产业催化事件 - 5月科技密集催化:DS-R2发布 华为昇腾CloudMatrix 384出货 鸿蒙PC新品及HarmonyOS 6.0预览版将亮相 [9] - 腾讯韶关算力中心获批(总投资50亿) 互联网大厂或启动新招标 [9] 资金与交易 - 恒指五月期货未平仓合约90,379张 牛熊证分布显示22505点存在做多动力 [10] - 美联储会议期间亚洲货币走强 恒指本周看涨 [10] 热点方向 - 科技股(机器人/AI/电子)与消费股(社服/创新药)为近期主线 关税缓和或使自主可控边际转弱 [11]