混合专家架构(MoE)
搜索文档
21社论丨规模效应将强化中国AI产业市场优势
21世纪经济报道· 2026-03-04 09:22
中国AI产业全球竞争力与崛起势头 - 中国AI模型全球调用量首次超越美国,2026年2月在OpenRouter平台全球调用量前五的模型中,中国占据四席[1] - 中国模型的高调用量主要源自海外市场实际使用,OpenRouter平台中国用户占比仅为6.01%[1] - 中国AI正从“玩具”阶段迈向“工具”时代,例如字节跳动Seedance 2.0视频生成模型被业界誉为“导演级AI”[1] 中国AI产业的系统性优势与成本竞争力 - 中国AI模型使用成本仅为美国的1/10至1/16,核心原因在于电力成本远低于美国,而电力占AI运营成本的60%—70%[2] - 中国AI产业在工程层面具有系统性优势,包括广泛采用混合专家架构(MoE)、以周为单位的快速迭代以及规模化部署带来的极低推理成本[2] - 中国企业更注重模型能力与场景落地的深度融合,国产模型在企业级工业、金融、多模态等高价值场景中的渗透率持续提升[3] 完整的国产AI产业链与算力自主 - 中国已构建起从底层芯片到应用层的完整AI产业链闭环,包括华为昇腾、寒武纪等国产芯片,以及阿里云、华为云提供的全球性价比最高的AI算力[3] - 华为在MWC 2026上首次向海外展示超节点计算集群全系列产品,为英伟达主导的高端AI算力市场提供强有力的国产替代选项[2] - 全球开发者对中国模型的需求增长,正从电力、算力、芯片到数据中心,层层传导,为整个产业链带来巨大的出口牵引力[3] 全球AI竞争新格局与中国定位 - 全球AI竞争呈现差异化格局:美国强于半导体、基础模型与数字应用,而中国的比较优势集中于电力基础设施、硬件制造与实体AI应用[3] - 中国在成本控制、迭代速度、应用落地三个维度上正在形成系统性优势,并重塑全球AI产业的竞争规则[3] - 中国AI产业的发展形成了“数据反馈—模型优化—用户增长”的飞轮效应,推动领先优势持续扩大[3] 国际机构对中国AI产业的价值重估 - 高盛认为当前市场对中国AI的定价远未反映其潜在经济效益,若沿用美国叙事逻辑将错失其在电力、硬件等优势环节的结构性机会,中国AI市场存在巨大的价值重估空间[4] - 瑞银等外资机构将中国AI列为长线布局主线,认为在美国科技股估值相对高位的背景下,中国在电力、硬件、模型等领域的企业将成为全球AI算力需求爆发的核心受益者[4]
超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计
机器之心· 2025-12-31 17:31
行业技术趋势:MoE架构成为主流及其带来的挑战 - 以ChatGPT、Gemini、DeepSeek-V3、Kimi-K2为代表的主流大模型已普遍采用混合专家架构及专家并行策略,MoE技术已在产业应用中逐渐成为主流 [1] - 以代码智能体、Cursor类对话式IDE为代表的新型应用,显著推高了用户请求规模并大幅拉长了单次推理的上下文长度,两者均呈现出一个数量级以上的增长 [1] - 在MoE架构下,上述变化不仅线性放大了计算开销,还显著增加了跨专家的通信与调度成本,使得整体系统压力接近一个数量级提升,并在规模化服务场景中被进一步放大 [1] MoE专家并行架构的性能瓶颈 - 在专家并行策略下,token需要在不同专家所在的GPU之间进行跨设备的数据重排与通信,形成分布式数据重排过程,其典型执行流程包括通信前后的本地重排和跨GPU的All-to-All通信 [7][13] - 随着专家并行规模的扩大,分布式数据重排的开销呈上升趋势,在端到端总延迟中所占比例总体上不断增加,已成为重要性能瓶颈 [11] - 量化分析显示,以32 MB数据为例,在机内通信场景下,数据重排操作在总shuffle时间中的占比高达68.8%;在跨机通信场景下,占比为25% [12][14] - 传统的All-to-All通信对token冗余和网络层次缺乏感知,同一token可能被重复发送多次,造成带宽浪费 [14] - 当前主流通信解决方案基于“通信与数据布局解耦”的传统设计假设,难以高效应对实际生产中的复杂数据访问模式,性能已逐渐趋近瓶颈 [2][8] 创新解决方案:FUSCO通信库的核心设计 - 无问芯穹联合多所高校推出高效通信库“FUSCO”,旨在解决MoE模型在专家并行策略下的通信瓶颈 [3] - FUSCO采用全新的融合式通信优化路径,核心思路是将通信过程与数据底层布局主动协同,在数据搬运的同时完成布局转换,从而彻底消除冗余的数据重排操作 [4][16] - 其设计打破了将重排视为独立步骤的传统思路,通过协同设计通信接口和底层算子,使数据重排被自然地融合进通信过程本身 [18][19] - 通信接口上,FUSCO将通信数据抽象为一组逻辑段,并使用段描述符数据结构记录其起始地址,通过`gather-send`和`scatter-recv`两个互补的原语实现端到端的精确数据放置 [21][23] - 在执行层面,FUSCO通过一套流水线化的执行方式,将布局整理与数据传输紧密绑定,在引入灵活重排能力的同时,维持与高性能通信库相当的带宽效率 [24][27] FUSCO的通信调度与优化策略 - FUSCO的通信调度核心目标是在消除重排的基础上,减少跨机传输量并平衡各设备通信负载 [28] - 系统会生成详细的执行计划,将MoE的token路由信息转化为可直接执行的低层指令 [28] - 为提升跨节点通信效率,FUSCO为每个发送GPU在每个目标节点指定一个“转发GPU”,通过节点内高速链路分发数据,减少了跨节点重复传输 [30] - 通过将转发GPU组织成通信组,确保高负载GPU分散在不同组中,实现在线负载均衡,避免网络热点 [30] - 与DeepEP不同,FUSCO能在多种网络环境下高效运行,无需针对网络做额外调优,具有更好的可移植性 [32] FUSCO的性能表现与优势 - 在通信性能测试中,使用64张GPU,在真实推理流量、单节点路由流量、负载不均衡流量三种典型配置下进行评测,总文本长度最大可达2048K tokens [36][38][40] - 实验结果表明,相较于NCCL和DeepSeek的DeepEP通信库,FUSCO的通信性能最高可分别提升3.84倍和2.01倍,且文本长度越长加速越明显 [4][44] - 在端到端性能测试中,在64张GPU上对Qwen3-235B-A22B和DeepSeek-V3两种MoE模型进行评测 [45] - 在训练任务中,FUSCO相较于NCCL性能最高提升1.39倍,相较于DeepEP性能最高提升1.19倍 [47] - 在推理任务中,FUSCO相较于NCCL性能最高提升1.25倍,相较于DeepEP性能最高提升1.16倍,且模型规模越大,性能提升越显著 [47] - 总结来看,在多节点64 GPU测试中,FUSCO的通信性能分别提升了3.84倍和2.01倍,同时端到端性能增幅最高达40% [48]