稀疏计算
搜索文档
2025年度国产AI芯片产业白皮书-与非网
搜狐财经· 2025-10-21 16:05
产业发展战略意义与现状 - 国产AI芯片是AI产业的算力基石,对保障供应链自主可控和争夺下一代计算主导权至关重要 [1] - 产业正经历从“技术突围”到“生态崛起”的变革,形成传统架构优化与新兴架构创新双线并行的格局 [1] - 产业面临三大核心挑战:架构主导能力不足、生态体系存在短板、规模化落地受阻 [1] 技术创新方向与路径 - 多架构领域持续发力,涵盖x86、Arm、RISC-V、GPU及DSA专用加速器 [1] - 聚焦稀疏计算、FP8精度优化、存算一体、Chiplet异构集成等前沿技术突破 [1] - 墨芯人工智能、华为、寒武纪等企业在稀疏计算领域形成技术积累,摩尔线程等实现FP8算力量产 [1] - 存算一体技术通过近存计算与存内计算两条路径推进,旨在突破“内存墙”难题 [1][42] - 系统级优化技术包括Chiplet先进集成、存算一体计算范式、光电共封互连技术、液冷散热及新材料应用 [40] 产业格局与市场应用 - 产业全景呈现多领域协同发展,CPU、AI SoC、云端/边缘/车端AI芯片及GPU企业各具特色,地域上集中于上海、北京、广东 [2] - 通用并行架构成为算力平台优先发展方向,Chiplet技术被视为突破算力瓶颈的关键路径 [2] - 2024年智能算力规模达725.3 EFLOPS,华为、摩尔线程等企业的万卡级集群已实现部署 [2] - 智驾领域舱驾一体趋势显著,地平线、黑芝麻等企业的芯片已批量上车 [2] - 国产芯片在机器人领域及智能汽车、具身智能等端侧市场场景展现巨大潜力 [2] 核心挑战与瓶颈 - 架构主导能力不足,难以突破技术跟随困境 [1][14] - 生态体系存在短板,软件栈、开发工具与模型兼容性滞后 [1] - 算力密度与软件生态是最需突破的瓶颈 [2] - 量产方面,EDA工具链缺失和先进封装产能不足是主要障碍 [2]
AI算力集群迈进“万卡”时代 超节点为什么火了?
第一财经· 2025-07-30 18:24
超节点技术成为AI算力集群核心解决方案 - 超节点技术通过整合算力芯片资源构建低延迟高带宽算力实体 显著提升算力利用效率 支撑千亿至万亿参数模型训练[1] - 技术能避免芯片空闲 在单颗芯片制程受限时仍可提升集群性能 国内厂商已将其作为明显发展趋势[1][4] - 华为展出昇腾384超节点实现384个NPU大带宽低时延互连 上海仪电联合曦智科技等发布光跃LightSphere X超节点 新华三推出H3C UniPoD S80000超节点[1] 超节点技术兴起的驱动因素 - 大模型参数量迈向万亿级 算力集群从千卡扩展到万卡/十万卡规模 需解决大规模芯片协同问题[2] - 传统AI服务器横向拓展存在算力性能损失 超节点能保证单个节点内性能最优 解决"1+1<2"的算力损耗问题[3] - 光互连技术成为主流方向 光互连光交换可实现纳秒级切换 提供高带宽低延迟通信 曦智科技光交换芯片与壁仞科技GPU液冷模组已投入应用[4] 超节点技术的实施路径与优势 - 采用scale out横向拓展与scale up纵向拓展双路线 纵向拓展可在单节点内集成多GPU(如64卡/节点)实现一致通讯带宽[3] - 万卡集群需具备多重容错能力 包括秒级容错和分钟级故障恢复 同时需要调度能力实现并行计算分布[2] - 国内通过超节点方案以量补质 弥补国产AI芯片制程差距 光芯片可不依赖高制程[5] 国产AI芯片的差异化竞争策略 - 外购芯片市场份额从去年63%降至今年预计49% 国产芯片占比提升[6] - 墨芯人工智能聚焦AI推理场景 采用稀疏计算技术 12nm制程即可满足需求 针对边缘计算优化功耗[6][7] - 云天励飞聚焦边缘计算与云端大模型推理 后摩智能定位端边场景 存算一体技术实现160TOPS算力 避开与巨头直接竞争[8] 技术路线与生态建设现状 - 英伟达采用封闭生态 国内厂商推进开放技术体系 各厂商超节点路线存在差异 光通信技术全球领先无明显代差[5] - 新华三超节点基于以太协议和PCIe协议 适用多种算力芯片 华为通过总线技术实现NPU互连[4] - 万亿参数模型训练需超1万张GPU 每个超节点包含几十张GPU 需配置冗余容错机制[2]
心智观察所:说芯片无需担忧,任正非战略思想有什么技术底气
观察者网· 2025-06-10 15:02
核心观点 - 华为通过系统级创新策略弥补单芯片制程差距 包括集群计算 算法优化和Chiplet技术应用 实现算力竞争力 [1][3][7] - 公司依托人才长期投入和开放生态协作 构建底层技术核心竞争力 [9][10] 技术战略 - 采用"叠加和集群"方法连接多芯片协同工作 昇腾910B芯片通过自研CCE通信协议构建高效集群 支持盘古大模型训练 [3] - 谷歌TPU v4集群案例证明并行任务领域可通过规模效应弥补单芯片性能差距 成功训练5400亿参数PaLM模型 [3] - 运用"用数学补物理"理念 通过稀疏计算 模型量化和剪枝技术降低硬件依赖 MindSpore框架使AI训练计算需求降低30%以上 [4] - Chiplet技术将大芯片拆解为多功能芯粒 采用异构集成和先进封装实现系统级性能突破 规避单一制程限制 [7][8] 应用案例 - 天津港无人化码头部署数百块昇腾芯片组成计算集群 实时处理海量传感器数据指挥无人设备 [4] - AMD采用模块化设计和Chiplet技术实现逆袭 2020年EPYC处理器占据全球服务器市场约15%份额 [5] 研发投入 - 过去十年研发投入超过1.2万亿元 拥有约11.4万名研发人员 [9] - 通过"天才少年"计划 高校合作和实战培养机制汇聚顶尖人才 深度参与芯片架构设计 [10] 生态建设 - 开放战略整合全球资源 昇腾芯片与PyTorch等主流框架兼容 Atlas平台实现软硬件深度协同 [4] - 在高速SerDes 先进封装互连设计 信号完整性仿真等底层技术领域持续投入 [8] 技术挑战 - 集群计算存在能耗 成本和通信瓶颈问题 [10] - 单线程性能要求高的科学计算场景中集群优势受限 [10]