存算一体与云边端一体化行业趋势交流

存算一体与AI芯片行业交流纪要关键要点涉及的行业与公司 * 行业：存算一体芯片、AI推理芯片、ASIC专用芯片、芯片间互联技术（Scale-up/Scale-out）、光互联/光交换技术 * 公司：英伟达、Groq、华为、寒武纪、百度昆仑芯、燧原科技、兆易创新、华虹、中芯国际、上海曦智、DeepSeek、MiniMax 核心观点与论据一、存算一体芯片的优势与价值 * 核心优势在于消除显存成本瓶颈，预计可将芯片售价与功耗降低50%以上[1]，例如将主流800瓦芯片功耗压缩至100瓦以下[2] * 解决当前算力市场主要矛盾：先进制程导致成本攀升与用户对算力普惠化、低成本、低功耗的需求[2] * 针对GPU在推理场景中算力冗余的问题（实际利用率可能仅为60%），提供专用化解决方案[2] 二、主要技术路线及特点 * SRAM路线（以Groq为代表）： * 优势：推理速度极快，可达GPU的5至10倍[1][4] * 劣势：单颗存储容量有限（数百兆级别），部署成本高，运行同等规模模型时物理部署成本是GPU的10到15倍[4][5] * 应用：满足对推理延迟极度敏感的场景，约占推理市场需求的50%[4] * MRAM路线： * 优势：具备非易失性、低功耗、抗辐射、理论寿命长[1][4][12] * 劣势：存储容量比SRAM更小，写入速度慢，无法进行模型训练[4] * 进展：预计2027年实现流片[1]，目前尚无先进制程产品[4] * 其他路线：DRAM路线走通可能性不大[4]；RRAM也是潜在选项[12] 三、商业化进展与中美对比 * 商业化节奏：2026年无法大规模商用[5]；Groq因部署成本过高曾搁置千卡集群项目[5] * 中美差距： * 技术差距不大，预计2027年两国产品将同步面市，时间差不超过半年[1][6] * 主要区别在于生态系统：美国产品融入CUDA生态；中国产品适配国内主流通用大模型及行业模型[6] * 在光电互联、光交换等前沿Scale-up技术上，中国略领先美国（时间差约半年）[1][13][14] * 在传统高速网卡及私有协议互联（如NVLink）方面，中国仍落后于英伟达[1][13] * 商业化瓶颈： 1. 底层存储材料容量受限，直接影响大模型部署能力[8] 2. 软件工具链适配成本高，需对大量算子和框架进行适配[8] 3. 芯片间互联技术存在瓶颈，协议和接口差异带来挑战[8] 四、未来推理芯片市场格局 * 市场空间巨大，预计3-5年后推理芯片将占总需求80%以上[1][7] * 市场呈现分化： * 模型训练/微调：仍由高功耗、先进制程的通用GPU主导[8] * 端侧推理市场：将由存算一体芯片、量子专用计算芯片、NPU或其他ASIC等专用芯片主导[8] * 存算一体芯片有望实现低价，例如基于MRAM的板卡售价有望控制在5万元人民币以下，远低于英伟达H200或A100[8] 五、ASIC芯片市场需求与趋势 * 需求回暖背景：始于2024年第二季度，以DeepSeek模型出现为标志[14]。此前“百模大战”中模型同质化严重，专用ASIC芯片难以适配[14] * 核心增长点：针对特定模型优化的“一体机”模式（如DeepSeek一体机、千问一体机）成为2025年核心增长点[1][15] * 需求旺盛领域：泛政府、医疗、教育、泛金融、交通、能源、科研、生物医药等需要部署行业智能体的领域[14] * 长期前景：ASIC芯片厂商比模型厂商更具潜力。模型市场将趋于集中，而专用芯片公司生态将更多样化，可深耕细分行业[16] 六、其他重要技术与生态动态 * 英伟达生态整合：通过整合Groq将专用芯片纳入CUDA生态，并复用NVLink、NVSwitch及未来光互联技术以降低部署成本[1][2][5] * 国内参与者：存算一体芯片设计初创企业数量不多，包括前寒武纪CTO牵头的公司、杭州获兆易创新投资的公司等[10]；代工可由华虹、中芯国际等完成[10] * 架构根本区别：存算一体核心是在存储介质上直接计算，这与NPU、GPU、ASIC等依赖外部高带宽显存的架构有本质不同[10] * 量子专用计算：未来2-5年内专用化应用有望落地，广义上也可归类为存算一体[7] * 先进封装趋势：未来可能出现将存算一体芯片（SRAM/MRAM/RRAM）、GPU与光电模块封装在一起的形态，以实现训推一体和极速推理[12] * 国内通信架构创新：如华为的“超级点”技术，绕过CPU实现GPU直连，在服务器内部通信架构设计上展现出优势[14]