混合专家架构（MoE） - 财报，业绩电话会，研报，新闻

混合专家架构（MoE）

搜索文档

21世纪经济报道· 2026-03-04 09:22

中国AI产业全球竞争力与崛起势头 - 中国AI模型全球调用量首次超越美国，2026年2月在OpenRouter平台全球调用量前五的模型中，中国占据四席[1] - 中国模型的高调用量主要源自海外市场实际使用，OpenRouter平台中国用户占比仅为6.01%[1] - 中国AI正从“玩具”阶段迈向“工具”时代，例如字节跳动Seedance 2.0视频生成模型被业界誉为“导演级AI”[1] 中国AI产业的系统性优势与成本竞争力 - 中国AI模型使用成本仅为美国的1/10至1/16，核心原因在于电力成本远低于美国，而电力占AI运营成本的60%—70%[2] - 中国AI产业在工程层面具有系统性优势，包括广泛采用混合专家架构（MoE）、以周为单位的快速迭代以及规模化部署带来的极低推理成本[2] - 中国企业更注重模型能力与场景落地的深度融合，国产模型在企业级工业、金融、多模态等高价值场景中的渗透率持续提升[3] 完整的国产AI产业链与算力自主 - 中国已构建起从底层芯片到应用层的完整AI产业链闭环，包括华为昇腾、寒武纪等国产芯片，以及阿里云、华为云提供的全球性价比最高的AI算力[3] - 华为在MWC 2026上首次向海外展示超节点计算集群全系列产品，为英伟达主导的高端AI算力市场提供强有力的国产替代选项[2] - 全球开发者对中国模型的需求增长，正从电力、算力、芯片到数据中心，层层传导，为整个产业链带来巨大的出口牵引力[3] 全球AI竞争新格局与中国定位 - 全球AI竞争呈现差异化格局：美国强于半导体、基础模型与数字应用，而中国的比较优势集中于电力基础设施、硬件制造与实体AI应用[3] - 中国在成本控制、迭代速度、应用落地三个维度上正在形成系统性优势，并重塑全球AI产业的竞争规则[3] - 中国AI产业的发展形成了“数据反馈—模型优化—用户增长”的飞轮效应，推动领先优势持续扩大[3] 国际机构对中国AI产业的价值重估 - 高盛认为当前市场对中国AI的定价远未反映其潜在经济效益，若沿用美国叙事逻辑将错失其在电力、硬件等优势环节的结构性机会，中国AI市场存在巨大的价值重估空间[4] - 瑞银等外资机构将中国AI列为长线布局主线，认为在美国科技股估值相对高位的背景下，中国在电力、硬件、模型等领域的企业将成为全球AI算力需求爆发的核心受益者[4]

中兴通讯(SZ:000063)

Artificial Intelligence

AIGC

混合专家架构（MoE）

Artificial Intelligence

Seedance 2.0

Atlas 950 SuperPoD

Artificial Intelligence

AIGC

混合专家架构（MoE）

Artificial Intelligence

Seedance 2.0

Atlas 950 SuperPoD

超DeepEP两倍！无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈，专为Agent爆发设计

机器之心· 2025-12-31 17:31

行业技术趋势：MoE架构成为主流及其带来的挑战 - 以ChatGPT、Gemini、DeepSeek-V3、Kimi-K2为代表的主流大模型已普遍采用混合专家架构及专家并行策略，MoE技术已在产业应用中逐渐成为主流 [1] - 以代码智能体、Cursor类对话式IDE为代表的新型应用，显著推高了用户请求规模并大幅拉长了单次推理的上下文长度，两者均呈现出一个数量级以上的增长 [1] - 在MoE架构下，上述变化不仅线性放大了计算开销，还显著增加了跨专家的通信与调度成本，使得整体系统压力接近一个数量级提升，并在规模化服务场景中被进一步放大 [1] MoE专家并行架构的性能瓶颈 - 在专家并行策略下，token需要在不同专家所在的GPU之间进行跨设备的数据重排与通信，形成分布式数据重排过程，其典型执行流程包括通信前后的本地重排和跨GPU的All-to-All通信 [7][13] - 随着专家并行规模的扩大，分布式数据重排的开销呈上升趋势，在端到端总延迟中所占比例总体上不断增加，已成为重要性能瓶颈 [11] - 量化分析显示，以32 MB数据为例，在机内通信场景下，数据重排操作在总shuffle时间中的占比高达68.8%；在跨机通信场景下，占比为25% [12][14] - 传统的All-to-All通信对token冗余和网络层次缺乏感知，同一token可能被重复发送多次，造成带宽浪费 [14] - 当前主流通信解决方案基于“通信与数据布局解耦”的传统设计假设，难以高效应对实际生产中的复杂数据访问模式，性能已逐渐趋近瓶颈 [2][8] 创新解决方案：FUSCO通信库的核心设计 - 无问芯穹联合多所高校推出高效通信库“FUSCO”，旨在解决MoE模型在专家并行策略下的通信瓶颈 [3] - FUSCO采用全新的融合式通信优化路径，核心思路是将通信过程与数据底层布局主动协同，在数据搬运的同时完成布局转换，从而彻底消除冗余的数据重排操作 [4][16] - 其设计打破了将重排视为独立步骤的传统思路，通过协同设计通信接口和底层算子，使数据重排被自然地融合进通信过程本身 [18][19] - 通信接口上，FUSCO将通信数据抽象为一组逻辑段，并使用段描述符数据结构记录其起始地址，通过`gather-send`和`scatter-recv`两个互补的原语实现端到端的精确数据放置 [21][23] - 在执行层面，FUSCO通过一套流水线化的执行方式，将布局整理与数据传输紧密绑定，在引入灵活重排能力的同时，维持与高性能通信库相当的带宽效率 [24][27] FUSCO的通信调度与优化策略 - FUSCO的通信调度核心目标是在消除重排的基础上，减少跨机传输量并平衡各设备通信负载 [28] - 系统会生成详细的执行计划，将MoE的token路由信息转化为可直接执行的低层指令 [28] - 为提升跨节点通信效率，FUSCO为每个发送GPU在每个目标节点指定一个“转发GPU”，通过节点内高速链路分发数据，减少了跨节点重复传输 [30] - 通过将转发GPU组织成通信组，确保高负载GPU分散在不同组中，实现在线负载均衡，避免网络热点 [30] - 与DeepEP不同，FUSCO能在多种网络环境下高效运行，无需针对网络做额外调优，具有更好的可移植性 [32] FUSCO的性能表现与优势 - 在通信性能测试中，使用64张GPU，在真实推理流量、单节点路由流量、负载不均衡流量三种典型配置下进行评测，总文本长度最大可达2048K tokens [36][38][40] - 实验结果表明，相较于NCCL和DeepSeek的DeepEP通信库，FUSCO的通信性能最高可分别提升3.84倍和2.01倍，且文本长度越长加速越明显 [4][44] - 在端到端性能测试中，在64张GPU上对Qwen3-235B-A22B和DeepSeek-V3两种MoE模型进行评测 [45] - 在训练任务中，FUSCO相较于NCCL性能最高提升1.39倍，相较于DeepEP性能最高提升1.19倍 [47] - 在推理任务中，FUSCO相较于NCCL性能最高提升1.25倍，相较于DeepEP性能最高提升1.16倍，且模型规模越大，性能提升越显著 [47] - 总结来看，在多节点64 GPU测试中，FUSCO的通信性能分别提升了3.84倍和2.01倍，同时端到端性能增幅最高达40% [48]