存算一体与AI芯片行业交流纪要关键要点 涉及的行业与公司 * 行业:存算一体芯片、AI推理芯片、ASIC专用芯片、芯片间互联技术(Scale-up/Scale-out)、光互联/光交换技术 * 公司:英伟达、Groq、华为、寒武纪、百度昆仑芯、燧原科技、兆易创新、华虹、中芯国际、上海曦智、DeepSeek、MiniMax 核心观点与论据 一、存算一体芯片的优势与价值 * 核心优势在于消除显存成本瓶颈,预计可将芯片售价与功耗降低50%以上[1],例如将主流800瓦芯片功耗压缩至100瓦以下[2] * 解决当前算力市场主要矛盾:先进制程导致成本攀升与用户对算力普惠化、低成本、低功耗的需求[2] * 针对GPU在推理场景中算力冗余的问题(实际利用率可能仅为60%),提供专用化解决方案[2] 二、主要技术路线及特点 * SRAM路线(以Groq为代表): * 优势:推理速度极快,可达GPU的5至10倍[1][4] * 劣势:单颗存储容量有限(数百兆级别),部署成本高,运行同等规模模型时物理部署成本是GPU的10到15倍[4][5] * 应用:满足对推理延迟极度敏感的场景,约占推理市场需求的50%[4] * MRAM路线: * 优势:具备非易失性、低功耗、抗辐射、理论寿命长[1][4][12] * 劣势:存储容量比SRAM更小,写入速度慢,无法进行模型训练[4] * 进展:预计2027年实现流片[1],目前尚无先进制程产品[4] * 其他路线:DRAM路线走通可能性不大[4];RRAM也是潜在选项[12] 三、商业化进展与中美对比 * 商业化节奏:2026年无法大规模商用[5];Groq因部署成本过高曾搁置千卡集群项目[5] * 中美差距: * 技术差距不大,预计2027年两国产品将同步面市,时间差不超过半年[1][6] * 主要区别在于生态系统:美国产品融入CUDA生态;中国产品适配国内主流通用大模型及行业模型[6] * 在光电互联、光交换等前沿Scale-up技术上,中国略领先美国(时间差约半年)[1][13][14] * 在传统高速网卡及私有协议互联(如NVLink)方面,中国仍落后于英伟达[1][13] * 商业化瓶颈: 1. 底层存储材料容量受限,直接影响大模型部署能力[8] 2. 软件工具链适配成本高,需对大量算子和框架进行适配[8] 3. 芯片间互联技术存在瓶颈,协议和接口差异带来挑战[8] 四、未来推理芯片市场格局 * 市场空间巨大,预计3-5年后推理芯片将占总需求80%以上[1][7] * 市场呈现分化: * 模型训练/微调:仍由高功耗、先进制程的通用GPU主导[8] * 端侧推理市场:将由存算一体芯片、量子专用计算芯片、NPU或其他ASIC等专用芯片主导[8] * 存算一体芯片有望实现低价,例如基于MRAM的板卡售价有望控制在5万元人民币以下,远低于英伟达H200或A100[8] 五、ASIC芯片市场需求与趋势 * 需求回暖背景:始于2024年第二季度,以DeepSeek模型出现为标志[14]。此前“百模大战”中模型同质化严重,专用ASIC芯片难以适配[14] * 核心增长点:针对特定模型优化的“一体机”模式(如DeepSeek一体机、千问一体机)成为2025年核心增长点[1][15] * 需求旺盛领域:泛政府、医疗、教育、泛金融、交通、能源、科研、生物医药等需要部署行业智能体的领域[14] * 长期前景:ASIC芯片厂商比模型厂商更具潜力。模型市场将趋于集中,而专用芯片公司生态将更多样化,可深耕细分行业[16] 六、其他重要技术与生态动态 * 英伟达生态整合:通过整合Groq将专用芯片纳入CUDA生态,并复用NVLink、NVSwitch及未来光互联技术以降低部署成本[1][2][5] * 国内参与者:存算一体芯片设计初创企业数量不多,包括前寒武纪CTO牵头的公司、杭州获兆易创新投资的公司等[10];代工可由华虹、中芯国际等完成[10] * 架构根本区别:存算一体核心是在存储介质上直接计算,这与NPU、GPU、ASIC等依赖外部高带宽显存的架构有本质不同[10] * 量子专用计算:未来2-5年内专用化应用有望落地,广义上也可归类为存算一体[7] * 先进封装趋势:未来可能出现将存算一体芯片(SRAM/MRAM/RRAM)、GPU与光电模块封装在一起的形态,以实现训推一体和极速推理[12] * 国内通信架构创新:如华为的“超级点”技术,绕过CPU实现GPU直连,在服务器内部通信架构设计上展现出优势[14]
存算一体与云边端一体化行业趋势交流