从“能用”到“好用”！中国工程院院士郑纬民详解“主权AI”三大支柱直指国产算力核心痛点

文章核心观点 - 在芯片产业全球化分工遭遇技术封锁的背景下，构建中国“主权AI”计算引擎成为紧迫任务，其实现需从算力自主、算法自强、生态自立三方面同步入手[1][3][4] - 发展国产万卡/十万卡集群系统是构建“主权AI”基础设施的必经之路，但面临互联网络、可靠性、能耗等多重工程挑战[1][9][10] - 生态建设是决定“主权AI”成败的关键，核心在于吸引并留住大量开发者，需解决迁移成本高、工具链不成熟、文档社区支持不足等问题，实现从“能用”到“愿用”的转变[1][5][8] “主权AI”的三大支柱 - 算力自主：指构建物理层的“安全底座”，包括自主可控的芯片与加速器、可持续的代工与供应链、可靠的机房及电力网络基础设施，目标是摆脱对单一外部算力平台的依赖，使关键行业能在本土算力上运行[4] - 算法自强：指在国产算力上进行“原生创新”，要求GPU等硬件能针对大模型做适配（如支持Transformer、MoE等结构）、支持千亿/万亿参数级别的训练，并能在国产算力环境下探索更适配本地应用与数据特点的模型架构[5] - 生态自立：指构建以开发者为核心的生态，真正成功取决于是否有足够多的开发者愿意长期在该技术栈上写代码，这甚至比算力和算法更为重要[1][5] 实现算力自主的具体要求 - 芯片设计能力自主：需在GPU/加速器、架构设计指令集规划、片上互连与存储架构等方面拥有自主权[4] - 制造与供应链风险可控：在现有全球产业格局下，需通过多源代工、库存策略与本土化能力布局来降低断供风险[4] - 系统与集群交付能力强：不仅要能“造出卡”，还要能够稳定交付服务器与大规模集群，并具备持续运维与优化的能力[4] 发展国产万卡/十万卡集群的必要性与挑战 - 必要性：模型时代算力的基本单位已是集群总算力，而非单卡性能；预训练超大规模模型、服务国民级推理需求都需要持续可用的万卡级训练集群，这是本土大模型与行业模型的“母机”与基座[9] - 工程挑战：需解决互联网络与拓扑、可靠性与运维、能耗与供电散热等问题，例如十万卡集群平均一小时可能出一次错，出错后如何继续训练是难题，同时其巨大的能耗对供电和散热提出极高要求[1][10] 生态自立的核心与实现路径 - 核心资源是开发者：平台的成败由开发者决定，需以开发者为中心提供解决方案[8] - 需解决的关键问题：国产平台需解决迁移成本高、工具链不成熟、文档/社区与支持不足等问题，并尽可能兼容主流框架（如PyTorch、TensorFlow、PaddlePaddle等）与常见编程习惯（如CUDA风格）[1][8] - 现实路径是拥抱开源：在“后CUDA时代”，模型使用者更倾向于使用开源项目，生态自立的一个现实路径是让国产平台成为开源创新的一个选择，同时需解决产业内卷与碎片化（如不同厂家接口不一）的问题[12][13] 对国产GPU的综合性要求 - 做GPU需满足三方面要求：能实现完整的图形流水线、可加强张量计算核心以支持主流框架、能提供高精度浮点单元用于科学计算，以支持AI（大规模神经网络训练与推理）、3D（高质量图形渲染）和HPC（高精度科学计算）的融合架构[9]