A100/A800
搜索文档
国产AI芯片超节点、产业链以及行业格局演变
2025-12-08 08:41
行业与公司 * **行业**:国产AI芯片行业[1] * **涉及公司**:寒武纪、随园、平头哥(阿里巴巴)、昆仑芯、沐曦、天树、华为、海光、中兴、天禄之星、木兮、摩尔等[1][2][3][4][5][6][9][12][13][14][15][19][22] * **下游客户/应用方**:字节跳动、腾讯、阿里巴巴、百度等互联网公司;政府智算中心;金融、运营商、能源等信创领域[1][2][5][7][8][10] 核心观点与论据 * **需求驱动**:英伟达高端产品(如H20系列)对华销售限制,促使国内互联网企业(字节跳动、腾讯、阿里巴巴)加速转向国产AI芯片,以满足大规模训练和国产化要求[1][5] * 字节跳动2025年90%-95%的寒武纪产能用于满足其需求[5] * 腾讯因投资随园而增加采购[5] * 阿里巴巴更多使用自家TPU和平头哥产品[5] * **性能对标**:国产AI芯片性能逐步提升,目前主要对标英伟达A100/A800系列,下一代产品预计达到H200系列60%-80%的性能水平[1][3] * 推理性能已基本与H20系列持平[1][3] * 新一代产品将采用HBM 3E或HBM 3,配备128GB或144GB HBM以保证带宽和容量[3] * **性价比优势**:国产芯片在单卡成本和总体拥有成本(TCO)方面更具竞争力[1][3] * **技术路径分化**: * **专有化GPU路线**(如寒武纪、华为):早期采用,性能目前处于前列(如华为910C、寒武纪690系列),但面临生态瓶颈[4][6][19] * **通用GPU路线**(如沐曦、天树):走CUDA兼容路线,在生态建设上更具优势,但需不断更新迭代以跟上最新扩展版本[4][6] * **超节点发展**:国内厂商加速追赶英伟达NV272/NVR 72方案,预计2026年底多家厂商将推出超节点解决方案[2][9] * **主要用途**:支持大规模模型训练,应对不断增大的参数规模[20] * **方案差异**:昆仑芯采用以太网交换机;寒武纪使用字节跳动自有协议;沐曦和天树依赖P3E等成熟方案;平头哥基于阿里方案并加入UALink联盟[1][9] * **市场趋势**:政府智算中心建设(除上海、合肥、杭州、深圳、北京五大核心区域外)放缓,芯片厂商更加注重行业落地应用和互联网需求[2][10] * 更强调智算中心的闭环管理和实际使用效果[2][11] * 信创领域(金融、运营商、能源等)因国产化需求,将优先部署国产化算力[7][8] * **供应链与产能挑战**: * **制程瓶颈**:大部分国产AI芯片集中在7纳米制程,更高制程(如5纳米)尚未普及,需通过多片互联提升单卡性能[1][4] * **功耗管理**:为弥补与英伟达的差距,风冷模组功耗需提升至800-1,000瓦,液冷模组功耗需提升至1,200-1,500瓦[1][4] * **先进制程分配**:新兴企业面临台积电、中芯国际先进制程产能有限的问题,需通过争取产能、双线生产等策略确保供应[16] * **竞争格局演变**: * **华为**:910C芯片(两个910B拼接)对标英伟达H100系列,目前具有一定优势[19] * **海光**:新一代BW1,000系列在腾讯测试中表现优异,领先其他玩家20%-30%,但因推出较晚,优势可能随时间减弱[15] * **昆仑芯**:主要客户为百度,2025年预计销售额达二三十亿元人民币,在国内市场仅次于华为[14] * **平头哥(阿里巴巴)**:性能相对较低(约100 TFLOPS),但兼容性好,在阿里内部采购占比逐渐增加,并直接面向安全与安防等行业客户[12] * **天禄之星**:天罡150系列与竞品存在约10%性能差距,但因其迭代至第二代,在产业应用及生态系统方面更完善,具有性价比优势[22] * **应对策略**:部分国内互联网大厂(阿里、腾讯、字节跳动)采用“PD分离架构”,即在海外(如东南亚)设立计算中心,使用H20、H100/H800等芯片训练模型,再将训练好的模型拿回国内进行微调和推理,以应对国内先进训练卡获取限制[2][16][17] * 若2026年超节点技术稳定性提高,可能逐步将更多训练任务迁回国内[17] 其他重要信息 * **出货预期**: * 预计2025年字节跳动卡数规模约为20万卡,2026年将翻倍至50万卡[2] * 整个市场超节点出货预期在50-80万卡之间[2] * **阿里巴巴采购情况**:内部采购来源多样,包括H20、H100、A100、A800以及寒武纪和华为产品,但平头哥占比逐渐增加[2][12] * 平头哥主要依赖台积电工艺,中芯国际产能有限且良品率较低[12] * 2025年上半年平头哥已供应几万颗芯片(具体数目不详)[18] * **互联网大厂库存**:腾讯、字节跳动、阿里巴巴等公司手中仍有大量英伟达芯片,以H20、A100/A800及H100为主,总体数量达几十万张卡[21] * 受工信部约谈影响,开始转向国产化测试[21] * **H200放开可能性**:尚不确定,若放开可能增加通用GPU赛道灵活性,使客户可混训,但也可能制约国产芯片厂商市场份额[14] * **交换机与网络**:中兴交换机在国内市场优势显著,支持400G以太网接口,与必认、天树等厂商合作密切,并自研网卡[13] * **下一代产品展望**:包括沐曦、寒武纪、华为等厂商将在2026年陆续发布新一代通用GPU,支持更高精度(如IP8)并提升互联带宽,预计将改变现有竞争格局[3][19]
GpuGeek打造算法工程师的AI研发利器,助力高校科研创新
金投网· 2025-06-18 10:53
AI基础设施普惠化 - AI基础设施的普惠化为个人开发者和高校科研带来前所未有的机遇 [1] - GpuGeek作为一站式AI infra平台,通过创新技术服务和完善基础设施支持,打造开放、高效、经济的AI研发环境 [1] 算力资源创新模式 - GpuGeek采用"算力界的滴滴"模式,提供从RTX 4090/5090到高端A100/A800的全系列GPU资源 [2] - 平台支持按秒计费、包天、包周、包月等多种选择,实现"用多少付多少"的灵活计费方式 [2] - 学生认证后可解锁"学霸礼包",仅需10元即可获得算力资源,大幅降低高校学生AI研究成本 [3] 平台资源与定价 - 提供多种GPU类型,包括A100-PCIE-40G、A800-PCIE-80GB、RTX-4090-24G等,显存从24GB至64GB不等 [3] - CPU配置涵盖16核AMD EPYC 7542至24核HiSilicon Kunpeng-920,内存从60GB至128GB [3] - 价格区间为¥1.4/小时至¥3.86/小时,其中RTX-4090-24G价格为¥2.18/小时 [3] 开发环境与工具链 - 平台简化开发流程,用户半分钟即可完成注册并创建实例 [5] - 预置TensorFlow、PyTorch等主流框架和在线IDE工具,无需繁琐环境配置 [5] - 提供开源数据集和网络加速功能,解决访问国外学术网站卡顿问题 [5] 开放生态与社区建设 - GpuGeek构建开放创新社区,鼓励用户在知乎、B站等平台分享实践经验 [6] - 通过"干货分享,带飞炼丹"等活动激励优质内容创作,促进用户互相学习 [6] 模型资源与国际合作 - 模型市场提供Qwen3、智谱GLM-Z1系列、DeepSeek-V3等最新模型的体验和API调用服务 [8] - 支持个人用户创建开源大模型微调镜像,进行创新实验 [8] - 在香港、达拉斯、欧洲等地部署海外节点,实现模型镜像秒级加载,推理延迟低至0.5秒 [8]