推理部署

搜索文档
科创板年内新增最大IPO融资项目拆解:摩尔线程的商业化初探
华尔街见闻· 2025-07-03 21:09
国产GPU行业竞争格局 - "国产GPU四小龙"中摩尔线程和沐曦集成科创板IPO已获受理,壁仞科技、燧原科技、格兰菲智能处于IPO辅导阶段,行业集体迈向资本化[1] - 摩尔线程计划募资80亿元,为2024年上半年科创板最大IPO募资规模,沐曦集成募资额约为其一半[5][6][7] - 行业竞争焦点在于谁能率先成为"国产GPU第一股",市场高度关注[8] 摩尔线程核心竞争力 - 核心团队来自英伟达,MTT S80显卡单精度浮点算力接近RTX 3060,千卡GPU智算集群效率超过国外同代产品[2] - 2024年收入达4.38亿元同比增长超2倍,AI智算产品首次创收3.36亿元占比超7成[3][11] - 研发投入达13.59亿元,净亏损14.92亿元但同比减亏10%[4] 产品与技术进展 - 产品线覆盖AI智算、专业图形加速、桌面级图形加速和智能SoC,形成全功能布局[9][10] - 2023年推出第三代GPU芯片MTT S4000,2024年披露新品MTT S5000,FP32算力达32TFLOPS超越A100但低于H100和MI325X[12][13][15][17] - 基于MTT S5000构建的千卡集群效率超过国外同代产品,计划投资25亿元研发新一代AI训推一体芯片[16] 商业化策略与财务表现 - 消费级产品MTT S80/S70累计收入仅0.72亿元,因国际品牌竞争采取低价策略导致毛利率为负[20] - 转向聚焦B端市场,AI智算和专业图形加速板卡毛利率分别达90.7%和83.13%,显著高于沐曦集成同类产品[21][22] - 在手订单4.4亿元,管理层预计2027年可实现盈利[23][24] 行业技术发展趋势 - FP8低精度浮点格式成为技术突破方向,可在保持低精度同时实现准确性、效率、内存和能耗的平衡[14][15] - 摩尔线程通过支持FP8计算与存储实现训练加速和内存占用降低,与BF16基线相比精度损失控制在0.25%以内[15]
华为+DeepSeek,推理性能创新高!技术报告也公布出来了
量子位· 2025-05-19 12:37
华为昇腾技术突破 - 华为昇腾在超大规模MoE模型推理性能上全面超越英伟达Hopper架构,实现"英伟达含量为0"的突破 [1] - 通过"以数学补物理"策略,利用数学理论、算法和建模弥补硬件局限,最大化发挥芯片和系统能力 [1] - 具体产品性能: - CloudMatrix 384超节点在50ms时延下单卡Decode吞吐达1920 Tokens/s [1][18] - Atlas 800I A2推理服务器在100ms时延下单卡吞吐达808 Tokens/s [1][21] 技术开源与披露 - 公司将全面开源昇腾超大规模MoE模型推理部署技术,包括技术报告和核心代码 [2] - 技术披露周活动将展示最新进展,相关资源可通过指定链接获取 [40][41] 行业趋势与挑战 - 大模型发展重心从训练转向推理应用落地,企业竞争焦点转向推理效率 [5][6] - 超大规模MoE模型(如6710亿参数的DeepSeek V3)带来三大挑战: - 内存压力:单个专家2.5G,64GB内存硬件难以承载 [7] - 通信开销:跨芯片数据传输耗时超过计算时间 [8] - 架构创新负担:如MLA机制导致中间变量激增 [9] 技术解决方案 硬件部署优化 - 采用PD分离部署解耦Prefill和Decode时延约束 [10] - CloudMatrix 384超节点采用144卡EP并行部署,128卡专用于路由专家 [17] - Atlas 800I A2采用多节点互联,2机16卡Prefill+4机32卡Decode [20] 框架与模型优化 - 基于vLLM框架适配DP/EP并行策略,优化调度分桶和分层传输 [12] - 采用A8W8C16量化策略(INT8+BF16),差异化部署不同机型 [13] - API Server横向扩展方案提升高并发场景QPS,动态负载均衡技术解决显存占用问题 [22] 通信优化 - FlashComm方案降低25%通信量并提升10%推理性能 [25] - 层内并行转换方案消除节点内卡间求和操作 [26] - 计算通信并发机制最大化硬件利用率,MLA层计算性能提升10% [27] 算子优化 - AMLA算法将乘性计算转为加性等价形式,减少数据搬运 [31] - L1/L2缓存精细化管理提升命中率,K-buffer流水排布掩盖计算耗时 [31] - 通算融合算子实现Token粒度流水排布,降低卡间同步开销 [31] 性能实测数据 - Prefill阶段:16K序列端到端耗时631ms,卡均吞吐1622 Tokens/s [34][36] - Decode阶段: - 2K输入+2K输出场景下吞吐达808 Tokens/s(90%接受率) [32] - 1K输入+2K输出场景下吞吐达876 Tokens/s(90%接受率) [32] - SiliconLLM框架部署DeepSeek-R1实现单卡1920 Tokens/s,等效H100性能 [38][39]