Workflow
以GPU为核心的AI体系结构
icon
搜索文档
容芯致远石旭:智算时代呼唤以GPU为核心的AI体系结构
21世纪经济报道· 2025-11-20 20:44
行业趋势:从通用计算到智能计算的转变 - 自2023年ChatGPT引爆生成式AI革命以来,智算需求呈爆炸式增长,进入2025年,高端GPU“一卡难求”,算力成为核心生产资料 [1] - 2023年中国通算服务器销量为470万台,智算服务器销量为15万台,而到了2025年上半年,通算服务器销量萎缩到100多万台,智算服务器销量则攀升至100多万台,市场结构发生根本性逆转 [1] 技术架构:体系结构创新与国产机遇 - 单纯依靠提升芯片制程来提高性能的路径已走到尽头,后摩尔时代需要算力芯片、交换芯片、软件生态协同更新,英伟达的布局(GPU、网络芯片、交换芯片、CUDA)是这一路径的体现 [1] - Deepseek混合专家模型(MoE)架构的诞生是关键转折点,它通过“按需激活”子模型降低了大模型训练和推理的单位成本,使得智算进入企业和家庭成为现实 [2] - MoE架构不要求单卡性能极高,而追求GPU数量多,更考验多卡协同效率,这为国产GPU提供了“弯道超车”的机遇 [2] 硬件瓶颈:互联技术与散热挑战 - 多卡协同工作存在通信瓶颈,传统铜互连只能提供几十厘米级的低延迟互联能力,限制了在设备内部构建8卡甚至更多GPU设备,并对高功耗散热设计提出挑战 [3] - 业界共识是构建“电算光传”的下一代数据中心架构,即用电计算,用光传输,但传统光传输技术因激光光源需在低于60℃环境工作,仍无法解决服务器内部芯片间高速互联问题 [3] - 容芯致远首创了不受60℃限制的光传输技术(BlueLink),能做出配备20张GPU卡的服务器,1台即可高效运行671B满血版大模型 [3] 计算核心:从CPU中心到GPU中心的范式转移 - 随着摩尔定律放缓,CPU接近极限,其“串行处理”架构不适合AI等大规模并行计算任务,而GPU的多核、高速、高并行性能使其成为AI时代不可或缺的算力核心 [4] - 在传统的以CPU为中心的AI架构中,GPU仅作为PCIe总线上的协处理器,性能无法被充分释放 [4] - 业界正转向以GPU和数据为中心的全新架构以解放GPU算力潜能,例如英伟达的GPU硬件与CUDA平台,以及容芯致远提出的AGC(以GPU为核心)智算架构 [5] - 在AGC架构中,CPU成为“外设”,降低了对CPU性能的要求,使得国产CPU也能支持国产GPU较好发挥性能 [5] 应用痛点:GPU可靠性、能耗与寿命 - 智算中心的故障率约为20%-30%,GPU因先进制程带来的高晶体管密度对温度极为敏感,高温易引发性能衰减和任务中断,在数据中心7x24小时满负荷运行下,其经济寿命可能被压缩至2-3年 [5] - 容芯致远突破了GPU热插拔、GPU RAID高可用和GPU节能延寿技术,旨在将GPU从脆弱、昂贵的奢侈品转变为可靠、经济的生产力工具 [5] 算力效率:体系力量提升有效算力 - 通过AI架构创新,能够将算力有效值从传统服务器的平均40%提升至60%以上 [6] - 在国产GPU算力逊于英伟达的情况下,提高算力有效值也能够提高实际算力值,这体现了体系结构创新的力量 [6]