文章核心观点 - 沐曦股份发布了其全栈自研异构计算软件栈MACA的全新版本3.3.0.X,该版本通过构建高度兼容的“万能接口”,旨在以极低的迁移成本将现有CUDA生态应用无缝迁移至其自研GPU平台,从而解决国产GPU面临的生态兼容核心挑战,并提升从算力到生产力的转化效率 [4][7][9][12][37][38] MACA软件栈的定位与核心作用 - MACA被定义为连接公司自研GPU硬件(曦云C系列、曦思N系列)与上层应用生态的关键纽带,是全栈软件体系的核心 [6][7] - 其覆盖了AI芯片工作流程的底层驱动、编译器、算子适配、训练推理框架、行业场景优化等全链路能力,旨在有效释放硬件算力 [9] 生态兼容性:构建“万能接口” - 新版本MACA的核心逻辑是构建一个“万能接口”,让现有生态能够近乎无缝地迁移到沐曦平台 [9] - 公司对GitHub上4490个含CUDA关键字的活跃代码仓库进行适配测试,其中4173个项目可直接适配运行,成功率高达92.94% [10] - 仅有260个项目(占比不足6%)需要微小调整,且修改主要涉及编译配置,而非核心业务逻辑,实现了现有CUDA项目的近乎“开箱即用” [10][12] 主流AI框架与操作系统的兼容 - MACA 3.3.0.X完成了对PyTorch 2.8的深度适配,覆盖全部2650个核心算子(其中GPU算子2410个) [15] - 兼容TensorFlow、PaddlePaddle、JAX等主流开源框架,以及Megatron-LM、DeepSpeed等大模型训练框架和vLLM等推理框架 [15] - 在操作系统方面,兼容Ubuntu、CentOS、RHEL、openEuler、Anolis OS、银河麒麟等主流Linux发行版 [15] - 支持混合精度训练、分布式训练、torch.compile编译优化等关键特性,适配无需调整工程构建逻辑 [15][16] 软件栈的完整架构与工具链 - MACA是一个完整的软件栈,包含开发效率引擎层和垂直场景赋能层两大核心部分 [18] - 开发效率引擎层提供了一系列针对沐曦GPU优化的高性能算子库,如mcBLAS、mcDNN、mcFlashAttention,并包含编译器、性能分析等全套自研工具链 [18][20][21][24] - 垂直场景赋能层针对AI与科学计算两大方向进行优化:AI领域优化训练与推理框架;科学计算领域重构MPI、BLAS库并移植OpenFOAM、GROMACS等框架 [22] 大模型训推一体化能力与性能优化 - 通过自研的MetaXLink高速互连技术,硬件层面构建了支持万卡级集群的低时延、高带宽分布式通信网络 [27] - 软件层面,MACA通过拓扑感知的高性能通信库和编译器优化模块,实现算子自动融合、通信与计算重叠等优化 [27] - 支持“训练-微调-推理-部署”全流程链路贯通,无需二次适配,缩短了大模型从研发到落地的周期 [29] - 关键性能优化包括:针对FlashAttention优化减少显存数据搬运开销;千卡集群训练推理线性度稳定在95%以上;专家并行效率提升15%;通过通信-计算重叠优化提升GPU利用率15%-30% [30][31] 垂直行业场景赋能与战略布局 - MACA是公司“1+6+X”战略的重要组成部分:“1”代表数字算力底座,“6”代表赋能金融、医疗健康、能源等六大核心行业,“X”代表具身智能、低空经济等新兴行业 [34] - 在搜广推、AI for Science(如材料、天气模拟、药物研发)等多个垂直场景进行了深度适配与优化,旨在将算力高效转化为行业生产力 [35][40] - 公司选择了基于全自研GPGPU核心IP及自主指令集的路线,保证了算力体系的安全合规、性能针对性与演进自主权,同时通过MACA实现与现有生态的高度兼容 [37]
深度拆解沐曦MXMACA软件栈功能,算力自主+生态兼容,破解国产GPU落地难题
机器之心·2025-12-29 12:44