稀疏计算

搜索文档
AI算力集群迈进“万卡”时代 超节点为什么火了?
第一财经· 2025-07-30 18:24
超节点技术成为AI算力集群核心解决方案 - 超节点技术通过整合算力芯片资源构建低延迟高带宽算力实体 显著提升算力利用效率 支撑千亿至万亿参数模型训练[1] - 技术能避免芯片空闲 在单颗芯片制程受限时仍可提升集群性能 国内厂商已将其作为明显发展趋势[1][4] - 华为展出昇腾384超节点实现384个NPU大带宽低时延互连 上海仪电联合曦智科技等发布光跃LightSphere X超节点 新华三推出H3C UniPoD S80000超节点[1] 超节点技术兴起的驱动因素 - 大模型参数量迈向万亿级 算力集群从千卡扩展到万卡/十万卡规模 需解决大规模芯片协同问题[2] - 传统AI服务器横向拓展存在算力性能损失 超节点能保证单个节点内性能最优 解决"1+1<2"的算力损耗问题[3] - 光互连技术成为主流方向 光互连光交换可实现纳秒级切换 提供高带宽低延迟通信 曦智科技光交换芯片与壁仞科技GPU液冷模组已投入应用[4] 超节点技术的实施路径与优势 - 采用scale out横向拓展与scale up纵向拓展双路线 纵向拓展可在单节点内集成多GPU(如64卡/节点)实现一致通讯带宽[3] - 万卡集群需具备多重容错能力 包括秒级容错和分钟级故障恢复 同时需要调度能力实现并行计算分布[2] - 国内通过超节点方案以量补质 弥补国产AI芯片制程差距 光芯片可不依赖高制程[5] 国产AI芯片的差异化竞争策略 - 外购芯片市场份额从去年63%降至今年预计49% 国产芯片占比提升[6] - 墨芯人工智能聚焦AI推理场景 采用稀疏计算技术 12nm制程即可满足需求 针对边缘计算优化功耗[6][7] - 云天励飞聚焦边缘计算与云端大模型推理 后摩智能定位端边场景 存算一体技术实现160TOPS算力 避开与巨头直接竞争[8] 技术路线与生态建设现状 - 英伟达采用封闭生态 国内厂商推进开放技术体系 各厂商超节点路线存在差异 光通信技术全球领先无明显代差[5] - 新华三超节点基于以太协议和PCIe协议 适用多种算力芯片 华为通过总线技术实现NPU互连[4] - 万亿参数模型训练需超1万张GPU 每个超节点包含几十张GPU 需配置冗余容错机制[2]
心智观察所:说芯片无需担忧,任正非战略思想有什么技术底气
观察者网· 2025-06-10 15:02
核心观点 - 华为通过系统级创新策略弥补单芯片制程差距 包括集群计算 算法优化和Chiplet技术应用 实现算力竞争力 [1][3][7] - 公司依托人才长期投入和开放生态协作 构建底层技术核心竞争力 [9][10] 技术战略 - 采用"叠加和集群"方法连接多芯片协同工作 昇腾910B芯片通过自研CCE通信协议构建高效集群 支持盘古大模型训练 [3] - 谷歌TPU v4集群案例证明并行任务领域可通过规模效应弥补单芯片性能差距 成功训练5400亿参数PaLM模型 [3] - 运用"用数学补物理"理念 通过稀疏计算 模型量化和剪枝技术降低硬件依赖 MindSpore框架使AI训练计算需求降低30%以上 [4] - Chiplet技术将大芯片拆解为多功能芯粒 采用异构集成和先进封装实现系统级性能突破 规避单一制程限制 [7][8] 应用案例 - 天津港无人化码头部署数百块昇腾芯片组成计算集群 实时处理海量传感器数据指挥无人设备 [4] - AMD采用模块化设计和Chiplet技术实现逆袭 2020年EPYC处理器占据全球服务器市场约15%份额 [5] 研发投入 - 过去十年研发投入超过1.2万亿元 拥有约11.4万名研发人员 [9] - 通过"天才少年"计划 高校合作和实战培养机制汇聚顶尖人才 深度参与芯片架构设计 [10] 生态建设 - 开放战略整合全球资源 昇腾芯片与PyTorch等主流框架兼容 Atlas平台实现软硬件深度协同 [4] - 在高速SerDes 先进封装互连设计 信号完整性仿真等底层技术领域持续投入 [8] 技术挑战 - 集群计算存在能耗 成本和通信瓶颈问题 [10] - 单线程性能要求高的科学计算场景中集群优势受限 [10]