Workflow
傅里叶的猫
icon
搜索文档
如果电力是AI发展的瓶颈,中国是否在领先?
傅里叶的猫· 2025-10-03 23:07
AI发展面临的电力瓶颈 - 电力已成为AI发展的关键瓶颈,获取GPU和TPU已非主要问题,电力供应不足和稳定性差成为最大挑战[1] - OpenAI规划到2033年电力需求达250GW,超过印度当前总耗电量,预示未来几年电力需求将急剧增长[3] - 过去40年电力基础设施建设严重不足,关键设备供应链中断、劳动力短缺和监管障碍共同导致电力供应能力薄弱[6] 数据中心电力需求激增 - AI数据中心快速增长大幅增加电力需求,如一吉瓦数据中心用电量相当于费城总用电量,迫使电网商实施限电措施[7] - 国际能源署预计数据中心年电力需求从2024年415太瓦时增至2030年945太瓦时,增长超过120%,占全球总电力消耗近3%[7] - 服务器功率密度显著上升,AI专用机架达40-130千瓦,未来可能超过600千瓦,推动冷却技术从空气冷却转向液冷[7] 全球电力需求区域差异 - 美国数据中心电力需求从2023年占总需求4%升至2030年12%,贡献近一半新增负荷,新数据中心排队时间达4-7年[8] - 欧洲面临高电价和严格监管,40%配电网使用超过40年,AI工作负载波动大,功率可在几秒内飙升十倍[8] - 中国通过东数西算策略和特高压输电有效缓解电力压力,利用西部可再生能源优势[8] 中国电力需求增长趋势 - 中国是全球最大电力消费者,年消费超9000太瓦时,是美国两倍,2023年需求约10000太瓦时,2030年预计达13500太瓦时[9] - 过去15年中国用电量复合年增长率6.3%,过去五年提高至6.9%,2024年7月用电量达1.02万亿千瓦时,同比增长8.6%[14] - 电力密集度不断提高,工业用电占总量2/3,数据中心占比相对较低但增长迅速[15][19] 中国各领域电力需求预测 - 工业用电2025年预计达6300太瓦时,同比增长4.6%,到2030年复合年增长率5.0%,达到8100太瓦时[19] - 电动汽车充电需求2025年激增38.1%达200太瓦时,到2030年复合年增长率23.7%达到500太瓦时[19] - 数据中心需求2025年同比增长13.3%达200太瓦时,到2030年复合年增长率13.0%达到400太瓦时[20] 中国数据中心发展前景 - 2030年中国数据中心容量或达47吉瓦,用电量超371太瓦时,约占全国电力需求2.7%,预估偏保守[22] - 2050年数据中心容量以7.5%复合年增长率增至200吉瓦,年耗电量达1600太瓦时,占全国总电力需求6.3%,为当前8倍[22] - 北京数据中心集群以1.4的PUE领跑行业,全球平均PUE在2013年提升至1.6,过去十年维持这一水平[23] 中国电力供应优势 - 中国每年新增超500GW电力容量,2023年新增超400GW占全球新增容量70%,在可再生能源领域具有领先地位[25] - 中国占据全球太阳能光伏生产市场80%,风力涡轮机制造能力三分之二,贡献全球核电容量增长80%[25] - 到2050年太阳能和风能发电量可能从当前1839太瓦时增长10倍达18000太瓦时,占电力总量70%[28] 电网基础设施与储能需求 - 随着可再生能源渗透率提高,电网稳定性和储能需求至关重要,20%可再生能源需要电池支持[29] - 到2050年中国需要约3300GW或12000GWh储能系统容量,比当前水平高出30倍[29] - 2024年电网基础设施投资达6000亿人民币,同比增长15%,需大量投资逆变器、变压器和高压电缆等基础设施[32] 核电发展与产业链公司 - 核电被视为煤炭基载电力替代选择,2024年投资增长42%达1420亿人民币,到2050年占比可能低于10%[35] - 报告列出电力设备与新能源产业链公司,包括汇川技术、阳光电源、金风科技、宁德时代等代表性企业[36] - 电力与公用事业领域涉及水电、火电、电网等多家上市公司,如华能水电、中广核电力、国投电力等[36]
Memory逻辑线梳理
傅里叶的猫· 2025-10-02 22:59
DDR4价格暴涨分析 - DDR4价格在2025年三季度合约价飙涨85%-90%,7月出现DDR4 8GB模组价格超过同容量DDR5的价格倒挂现象[5] - 供给端大幅收缩是价格上涨根本原因,美光于2025年1月宣布DDR4即将EOL,三星等头部原厂跟进,供货量达成率仅为几分之一[3];SK海力士将DDR4产能从30%砍到20%,三星计划年底停掉8GB和16GB DDR4模组[3] - 需求端呈现刚性支撑,北美互联网公司因DDR4比DDR5机型成本低约20%而大量采购;阿里、腾讯AI服务器需求同比增长60%-70%[4];工控、网通等领域年需求量维持在1.2亿GB[4] - 市场恐慌情绪放大涨价效应,金士顿一度暂停DDR4接单,华强北出现一货难求,买涨不买跌心理导致需求提前透支[5] OpenAI与存储巨头的战略合作 - OpenAI与三星、SK海力士建立战略合作,为星际之门AI数据中心项目提供存储芯片,该项目计划初期投资1000亿美元,四年内扩大至5000亿美元[7] - OpenAI计划到2029年每月采购高达90万片晶圆的DRAM产能,相当于2025年末全球DRAM总产能190万片/月的近一半[8] - 三星和SK海力士合计占据全球约70%的DRAM市场份额和近80%的HBM市场份额[7] - 摩根大通认为这一合作将推动存储芯片市场进入为期2-3年的"超级周期"[8] NAND在AI时代的需求前景 - AI推理环节带来刚需级新需求,预计到2029年AI相关NAND市场将占全球NAND市场的34%,新增290单位可服务市场[13][14] - QLC eSSD成为AI应用最优解,因其能满足大容量、高速度和支持随机I/O访问的要求[13] - 行业供需关系出现转折,HDD预计在2026年底至2027年初面临供应限制,NL SSD只要占5%市场份额就能带动8%的NAND需求增长[14] - 大摩预测海外NAND大厂2026年每股盈利平均比市场一致预期高26%[16] 国内存储公司业务分析 公司D - 公司D聚焦企业级SSD领域,2025年上半年收入同比增长88%,预计第三季度扭亏,企业级收入占比超30%,第四季度提升至40%[19] - 产能从每月1.2亿美元提升至每月1.8亿美元,2025年全年企业级SSD产能达150亿元[19] - 与阿里订单总额达80亿,新增50亿订单在未来12个月内交付;与字节锁定40亿存储模组订单,第四季度交付额预计突破10亿;预计第四季度获得腾讯首批20亿订单[20] - 正与AWS、谷歌联合推进PCIe 5.0 SSD定制开发,预计2025年下半年启动验证[21] 公司J - 发布专为AI数据中心设计的SOCAMM2产品,解决传统RDIMM性能瓶颈和高温问题[22] - 自研主控芯片累计部署量超8000万颗,UFS4.1产品顺序读写性能达4350MB/s和4200MB/s,随机读写性能达630K IOPS和750K IOPS[22] - 采用技术合作制造模式与闪迪合作,推出定制化UFS产品;UFS4.1产品获得闪迪及多家Tier1客户认可,市场正处于从eMMC向UFS快速过渡阶段[23][24] 公司Z - 各业务毛利率表现分化:Nor年底毛利率稳定;MCU维持在35%-36%;DRAM毛利率从一季度小个位数升至五月超20%,全年预计15%-20%[25] - 产品结构优化:2024年DRAM营收占比15%,2025年目标提升至20%;DDR4占比从50%升至60%,其中8Gb小bit颗粒占一半[26] - 每月DRAM投片1.3-1.4万片,其中DDR3约3000片、DDR4约1万片;在国产工业市场占50%份额,电表升级市场有望获得一半以上订单[26][27] - Nor新应用拓展:AI眼镜客户达十多家,Meta出货预计从不到3KK涨至5-6KK;AIPC带动BIOS旁Nor从256Mb/512Mb升级到1Gb;服务器领域突破腾讯、阿里、字节CIT项目[28][29]
SemiAnalysis创始人Dylan最新访谈--AI、半导体和中美
傅里叶的猫· 2025-10-01 22:43
OpenAI与Nvidia合作情况 - OpenAI需要大量计算资源来训练和运行模型 面临规模太小的风险 尽管有8亿用户 但营收只有15-20亿美元的跑率 而竞争对手是万亿级公司[4] - Nvidia向OpenAI投资100亿美元股权 用于建设10GW计算集群 但实际资本支出高达500亿美元 Nvidia从中捕获大部分GPU订单 毛利率达75%[5] - OpenAI签署了300亿美元的五年合同 如果成功纯利润可达上百亿美元 如果失败则需要举债 这反映了公司在资本实力上相对于Meta等巨头的劣势[6] - 此类合作显示计算资源是AI行业发展的先决条件 短期看Nvidia稳赚 长期取决于OpenAI能否将计算优势转化为实际营收[7] 模型缩放定律和回报机制 - 模型缩放不是线性递减回报 而是log-log规模 10倍计算投入可带来下一阶性能的跃升 例如从低水平到更高水平的能力转变[8] - 大模型服务面临成本高 速度慢等挑战 导致像Anthropic Claude 3 Opus虽然更智能但用户更倾向于使用更快的Sonnet版本[8] - 文本预训练数据接近枯竭 但多模态数据如图像和视频仍有扩展空间 模型大小受限于服务能力而非单纯的计算资源[9] - AI在软件开发领域最为有效 Anthropic营收从1亿美元增长到7-8亿美元 主要来自代码工具 这些工具可作为力乘器 让开发者产出增加2-5倍甚至10倍[9] Token经济学和推理需求 - Token经济学核心是计算投入与智能产出的价值关系 Nvidia将其称为"AI工厂" 1GW容量可服务不同规模的模型[10] - OpenAI的推理需求每两个月翻一倍 公司需要优先服务更多用户并爬升采用曲线 而非急于放大模型规模[10] - 成本已大幅下降 GPT-3现在比最初便宜2000倍 GPT-4o和DeepSeek成本更低 GPT-4到4 Turbo模型大小缩小一半但质量相当或更好[10] - 推理需求无限但硬件能力无法每两个月翻倍 因此需要算法降本 容量比延迟更重要 现有延迟已足够使用[11] - AI代理未来可像Visa一样抽成1-2% 例如Etsy已有10%流量来自GPT的购物建议查询 显示推理可成为营收引擎[11] 强化学习与环境训练 - 强化学习通过环境迭代学习 湾区有40家初创公司构建训练环境 如模拟购物 数据清洗 数学谜题等场景[12] - 人类通过试错学习 AI也需要类似过程 包括生成数据 测试和反馈 这被称为"后训练"的第二阶段[12] - 长上下文记忆需要优化 Transformer擅长短上下文 但长记忆需借助RAG等技术 类似人类记忆要点而非细节[12] - AI将从问答工具发展为行动代理 能够执行购物 决策等任务 这需要平衡即时反应与深度思考的能力[13] 硬件与电力供应链 - AI数据中心占美国电力消耗3-4% 其中一半为传统数据中心 一半为AI专用 整体数据中心行业占美国电力2-3%[14] - OpenAI规划的2GW数据中心电力消耗相当于费城全市用电量 建设资本支出约25亿美元 包括GPU等设备[14] - 行业面临供应链和劳动力短缺 移动电工薪水已翻倍 特别是在西德州数据中心建设热点地区[15] - 电网稳定性是挑战 AI工作负载导致功率波动 可能引起电网频率从60Hz偏离至59Hz 影响附近家电寿命[15] - Texas的ERCOT和东北部PJM电网要求大用户提前通知 可切掉一半电力保证居民用电 数据中心需启动现场发电机[16] - Nvidia Blackwell芯片制造遇到问题 导致供应链公司资产负债表膨胀 AI服务器部署延后[16] 美中AI竞争差异 - 如果没有AI 美国可能在十年内失去全球霸权 中国通过长期投资已在钢铁 稀土 太阳能等多个领域领先[18] - 中国在半导体领域投资达4000-5000亿美元 比美国CHIPS法案规模更大 重点构建自给自足的产业链生态[18] - 美国需要AI加速GDP增长来应对债务负担和社会分裂 而中国则通过补贴和生态构建玩长线游戏[18] 主要公司评价 - OpenAI整体被看好但焦点分散 尽管有8亿用户和快速增长营收 但执行相比Anthropic有所不足[20] - Anthropic更受乐观评价 营收从不到1亿跳至7-8亿美元 专注软件开发这一2万亿美元市场[21] - AMD评价为"中规中矩" 在AI领域更多是跟跑者 适合中端市场但高端集群仍由Nvidia主导[22] - xAI团队专注但面临资本风险 需要持续融资来支持全球最大单体数据中心建设[23] - Oracle是低风险玩家 通过垫付资本支出收取稳定租金 如果OpenAI成功支付300亿合同将获得高收益[24] - Meta拥有全栈优势 包括硬件 模型和推荐系统 下个人机界面可能是语音直达现实[25] - Google从两年前被看空转为被看好 垂直整合栈使其token成本最低 在多模态领域具有优势[25] - 初创公司Periodic Labs用强化学习研究电池化学 效率提升25%可解锁面部AI设备等新应用[26]
Memory的超级大周期
傅里叶的猫· 2025-09-30 20:19
市场现状与价格趋势 - 存储芯片市场呈现上行趋势,野村证券称之为“前所未有的超级周期”,由DRAM、HBM和NAND三重周期驱动 [2] - 上游资源涨价已传导至成品端,eMMC、UFS普遍大幅调涨,LPDDR4X因原厂暂停报价且计划大幅涨价而看涨情绪升温 [8] - 三星和SK海力士自今年4月起逐步减少DDR4产能,转向更高利润的DDR5、LPDDR5和HBM,直接导致DDR4系列价格暴涨 [8] - 美光将2025年服务器总出货量增长预期上调至约10%,高于此前中等个位数预期,受AI agents增长及传统服务器工作负载增加推动 [9] - TrendForce指出,受HDD供给短缺影响,云端服务供应商将存储需求转向QLC Enterprise SSD,预计Q4 NAND Flash合约价平均上涨5-10% [10] 涨价核心驱动因素 - AI与数据中心需求爆发:2026年传统服务器资本支出预计增长20-30%,带动DDR4/DDR5内存需求增长约50%,企业级SSD需求近乎翻倍 [14] - NAND市场因HDD供应短缺和AI存储需求激增,预计2026年位元出货量同比增长超50% [14] - 价格与利润率跃升:DRAM营业利润率预计从当前的40-50%升至2026年的近70%,NAND利润率将从盈亏平衡点跃升至30-40% [14] - HBM混合均价预计2025-2026年保持15%以上年增长,将贡献SK海力士75%的营业利润 [14] 近期需求爆发的根本原因 - AI业务从“积累期”迈入“高渗透期”,业务渗透率从20%-30%提升至30%-40%,用户规模大幅扩张 [18][19] - 以豆包为例,DAU从年初的1000万-2000万增至近4000万,传统互联网产品加速AI重构,用户与AI交互频次显著增加 [19] - AI技术逻辑从“快思考”升级为“慢思考”,引入思维链和外部agent协同,单次报告生成的token消耗从此前的约3000token增至3万以上,增长7-10倍 [18][20] - 海外头部模型全面转向多模态,处理图片、视频等非文本数据产生更多存储需求 [20] - 互联网大厂启动AI基础设施重构,构建“热-温-冷”分层存储体系,集中采购DRAM和SSD,直接转化为大量订单 [21] 行业前景与周期判断 - 由AI需求驱动的“超级周期”预计至少持续到2027年,但可能在2028年出现下行转折 [23] - 美光预计2026年行业DRAM供应将趋于紧张,全球存储芯片尤其HBM供需不平衡将加剧,2026年HBM产能已基本锁定 [9] 英伟达相关动态与影响 - SK海力士、三星与英伟达就HBM3E 12Hi和HBM4的定价谈判尚未最终敲定,谈判局势正向DRAM厂商倾斜 [25] - 英伟达要求HBM4速度需突破10Gbps,三星、美光、SK海力士均具备供应能力,对整体HBM市场影响有限 [26] - 英伟达CPX方案将推动Rubin平台对GDDR7的大规模采用,为GDDR7市场带来显著增量,但可能短期内对HBM4需求形成压制 [27] - 英伟达研发HBF方案,利用大容量堆叠NAND替代HBM来提升系统成本效益,优化存储资源配置 [28]
万亿的OpenAI,涨疯的Memory和新出炉的DeepSeek
傅里叶的猫· 2025-09-29 23:11
万亿的OpenAI - 英伟达与OpenAI的合作涉及四个领域:持续推进微软Azure数据中心建设、与甲骨文及软银合作搭建OCI算力设施、支持CoreWeave的算力需求、以及助力OpenAI自建AI基础设施[2] - OpenAI预测到2029年公司营收将达到1250亿美元,并计划斥资1万亿美元在全球建设数据中心以满足20GW以上计算能力需求,每GW成本预计高达500亿美元[3][4] - OpenAI计算能力储备将超过得州数据中心的13倍以上,支持下一代AI所需的能源规模相当于为超过1300万美国家庭供电,相当于17座核电站级别的电力需求[3][4] - 英伟达计划向OpenAI投入高达1000亿美元用于建设由10GW英伟达系统驱动的超级数据中心,该设施相当于400万到500万台英伟达GPU,总成本预计达5000亿至6000亿美元[4][5] - CoreWeave等基础设施提供商与OpenAI签署了价值65亿美元的协议,使其总合作金额达224亿美元,微软也宣布将在英国投资300亿美元增强AI基础设施[4] 涨疯的Memory - 服务器生意因DDR涨价导致预留利润空间被吃掉,需与客户重新谈价,DDR5和NAND Flash价格因AI基础设施建设需求推动而上涨[6][10] - 2025年4月开始三星和SK海力士逐步减少DDR4产能转向DDR5、LPDDR5和HBM,9月闪迪和美光宣布存储产品价格上涨10%-30%[10] - 2025年服务器DRAM ASP预计全年同比增长18%,2026年预计同比增长36%;2025年NAND ASP预计全年同比增长15%,2026年预计同比增长31%[11][13] - 2025年DDR4 64GB RDIMM价格从139美元上涨至251美元,全年涨幅29%;DDR5 64GB RDIMM价格从253美元上涨至278美元,全年涨幅7%[12] - 2026年DDR5 64GB RDIMM价格预计从295美元上涨至360美元,全年涨幅30%,DDR5渗透率预计从90%提升至92%[12] - 随着推理需求增加,Memory需求将持续增长,此轮涨价可能并非短期现象[14] 新出炉的DeepSeek - DeepSeek V3.2-Exp实现对华为、寒武纪芯片的Day 0级别适配,暗示存在深度联合开发基础,夯实了国产化三层架构根基[18] - 从V3.1到V3.2的迭代周期仅耗时1个月,展现出高效开发节奏,按此进度V4有望在不久后推出[19] - 团队开源V3.2版本的CUDA算子,同时引入TileLang新编程范式,采用"成熟方案+新兴探索"组合保障开发者体验[21] - V3.2通过引入稀疏注意力机制实现算力利用效率优化,官方同步宣布API服务价格下调50%,延续"高性能+低成本"开发理念[22] - 在各项评估指标上V3.2-Exp表现大多与前版相当,Codeforces测试分数提高75分,BrowseComp-zh提升2.9分,但HMMT测试下降2.5分[29] - DeepSeek为V3.2-Exp提供多种内核实现:TileLang内核适合研究用途,DeepGEMM针对生产环境优化,FlashMLA专注于稀疏注意力性能[31][32] - V3.2-Exp代表一种中间实验步骤,目前尚未准备好用于所有部署,但在结构化长文件推理如代码任务上显示出有前景的方向[34]
超节点技术与市场趋势解析
傅里叶的猫· 2025-09-29 00:00
超节点领域的合作与方案 - 下游CSP大厂主要找服务器供应商定制整机柜产品 服务器厂商和国产GPU厂商也在规划自己的超节点机柜 但以NV方案为主[4] - 国内主流超节点方案包括腾讯ETH-X、NV NVL72或其变形、华为昇腾CM384、阿里磐久 这些已在市场推广或有客户购买 字节规划大模型以太网创新方案 以博通Tomahawk为主 还未推广 海光方案多为传统刀片式服务器 无类似创新方案[4] - ETH-X是腾讯开放生态 与博通、安费诺等电缆和PCIe厂商合作 主要推广方包括壁仞、壁仞华创和腾讯下游云公司 在甘肃庆阳数据中心有合作 使用博通Tomahawk作为交换机 PCIe switch处理GPU流量 安费诺处理静态通信 中航光电设计液冷散热[5] - 字节方案由华擎研发 与腾讯类似但GPU卡不同:腾讯用燧原S60、L600及未来卡 字节用寒武纪和自研ASIC卡 两者适配天数、沐曦、摩尔线程等国产GPU 但主GPU各有侧重[5] - 互联网大厂自研方案与华为384、海光96卡、摩尔跨柜方案本质不同在于应用偏向:CM384偏训练和大模型计算 腾讯ETH-X偏推理 字节大模型整机柜偏训练和高性能计算[5] - 服务器厂商需具备交换机和服务器开发能力 与博通、NV、国产GPU厂商有关系 在AI服务器8卡、16卡、32卡方案有市场占有度 才能进入CSP选型 目前入选供应商有华勤、华三、超聚变 浪潮和锐捷作为备用 海光独立生态[5] 市场占有率与供应商格局 - 超节点方案还未大规模占有市场 在传统AI服务器(8卡、16卡)中 浪潮占有率最高 其次H3C 再是宁畅、华勤 国产开放生态中 昇腾达80%-90%[6] - 从9月16日起 CSP大厂包括BAT被强制不能采购NV的合规卡 明年或后年国产卡需达30%-40% 目前比例约9:1和8:2 互联网厂商每年被约谈 但海外卡采购仍放大[6] - 字节今年海外:国内=8:2 明年升至6:4 阿里找华勤等在海外代做NV方案 已招标提供海外数据中心 阿里、字节、腾讯通过下游云公司代建计算中心 非直接持有 代建后签3-5年租赁协议[6] - 中兴通讯2025年高层调整 新郭总目标在阿里、字节占份额 目前在阿里AI服务器从末尾升至20%-25% 联想因盈利考核 在CSP份额低 字节10% 阿里腾讯个位数 2024-2025价格战参与低[6] - 阿里AI服务器份额:浪潮33%-35% 华勤23% 宁畅和华三各18% 通用服务器:浪潮30% 中兴27% 华勤18% 华三15%[7] - 腾讯AI服务器:华勤40% 浪潮23% 华三18% 通用:浪潮35% 超聚变30% 宁畅15%[7] - 字节AI和通用:浪潮和宁畅各35% 宁畅AI30%、通用28% H3C AI15%、通用18% 联想10% 英业达和富士康各5%[7] 厂商竞争与二线格局 - 浪潮在成本和报价竞争激进时总拿第一份额 最具竞争力 第二第三竞争不明朗 阿里中是中兴、华三、华勤 华勤成本弱但高层决策以份额为主 盈利次之 数据业务盈利率降[8] - 腾讯AI服务器研发标多给华勤 技术30%、报价50%、质量20% 故份额高 通用中超聚变主攻腾讯 报价商务积极 华勤份额基本0 字节浪潮和宁畅默契 第一第二[8][9] - 大厂浪潮优势:在字节2019自研ODM起步时支持最大 技术供应服务商务占优 在阿里腾讯靠报价[9] - 二线互联网厂商需求小 无规则 主流供应商不参与 美团只华三和超聚变合作 京东直接采买超聚变和浪潮 只有浪潮和超聚变等成本强厂商占比例 美团基本浪潮和超聚变份额[9] - 二线GPU厂商找服务器厂商共研超节点 因无华为海光生态优势、销售人员少、对玩法不熟 服务器厂商有渠道 二线GPU可借其客户生态 国际厂商有供应品牌优势 客户认可规范GPU[9] - 华为UBB模式互联和海光HL总线协议只限各自生态 非开放 目前CPU无强制 大家是否用华为或海光CPU不确定[9] - 国产服务器发展慢 AI生态迭代国外领国内一年 互联网领行业一年 国外800G刚批量 国内2026Q4兴起 行业2027年[9] 采购与自研芯片 - 腾讯阿里能买时偏NV卡 阿里平头哥:NV=3:7 字节NV:国产=7:3(前8:2) NV限购时 以租代购和带采解决开支需求 资本开支用不完时 有趋势挪到国产[10] - 阿里平头哥3.0对标A100 80% 字节ASIC推理对标H100 65%-70% H100更训 百度昆仑芯未详 平头哥4月前代工台积电 4-6中断、7恢复8停 后中芯国际 海外三星 合作伙伴浪潮和华擎[10] - 超节点趋势:国外业务模型数据千万级 单节点不满足、时延高 故扩8卡到64卡增算力减时延 国内未铺开 未来推理若数据增长单节点不足 或有大规模需求[10] - 国产GPU合作:浪潮和中兴主 沐曦华三华勤 燧原开放 超聚变负责 摩尔线程H3C浪潮多[10] 经济与技术方面 - 以华勤为例 AI服务器净利率1-2点 大厂毛利率7-8点 通用毛利率1-2% 无净利率 通用规模小 牺牲成本占市场 成本强厂商净利率最好5点[11] - 未来AI超节点后 净毛利升 从自控物料入手:单机100万 自控10万 低毛净 整柜两三百万 自控压上游价 增利润 加软件方案 提升附加值[11] - 软件方案:1000万超节点 软件增三四十万利润 若供应商能力足、CSP评估费用低于自研 由供应商做 主要担运维管理[11] - 超节点CPU比例升:至少16节点 每节点2CPU 共32 以384方案:2CPU+4GPU 与72方案(18节点36CPU)区别大 铜缆比例增 核心厂商安费诺和立讯[11]
聊一聊AI ASIC芯片
傅里叶的猫· 2025-09-29 00:00
文章核心观点 - AI ASIC作为专用芯片,在AI推理时代凭借高能效、低成本和软硬件协同优势,成为大厂应对算力需求爆发和降低TCO的关键路径 [2][4][5][6] - AI推理需求随模型能力提升和Token消耗快速增长而爆发,推动AI ASIC市场进入高速增长期,AMD预计2028年全球市场规模达1250亿美元 [9][10][11] - 海外云服务厂商自研AI ASIC已形成成熟模式,以谷歌TPU为代表,通过与博通等设计服务商合作实现快速迭代和商业化 [16][17][20][21] - 国内AI云市场集中度提升推动头部云厂商自研AI ASIC需求,百度、阿里等公司产品已进入规模化应用阶段,国产ASIC产业链迎来战略机遇 [24][25][26][27][28] ASIC与GPU技术对比 - ASIC与GPU架构相似但定位不同:ASIC为特定场景定制,采用脉动阵列等架构优化矩阵运算,实现高能效和低功耗;GPU需兼顾图形渲染等通用场景,基于冯诺依曼架构存在存储瓶颈 [4] - 谷歌TPU v5能效比为英伟达H200的1.46倍,在BERT推理中每瓦性能提升3.2倍;亚马逊Trainium2训练成本降40%,推理降55%,10万卡集群可节省12亿美元初始投资 [4] - ASIC优势源于3D堆叠优化算力密度、DVFS降低闲置功耗、HBM3e内存突破带宽瓶颈(达1.2TB/s) [4] 大厂自研ASIC动因 - 核心驱动力为降低TCO:自研可规避外采芯片的厂商利润,英伟达FY2025毛利率75.5%、净利率57%,数据中心芯片利润约582亿美元 [6][8] - 应对内部AI需求爆发,实现软硬件协同优化,如谷歌TPU整合TensorFlow实现极致性能 [5] - 减少外部依赖,保障供应链安全 [5] - 自研投入包括设计团队收购(如亚马逊3.5亿美元收购Annapurna Labs)、外部服务商NRE费用及IP采购,规模起量后单颗芯片研发成本显著摊薄,谷歌2023年TPU超200万颗,年研发20亿美元,单颗摊薄1000美元 [7][8] AI推理需求增长 - 推理收入模型为(价格/token)×(吞吐量, tokens/秒),硬件性能直接决定token生成速度,低成本高效的AI ASIC在推理场景优势显著 [9] - ChatGPT C端周活跃用户截至2025年7月达7亿,占全球成年人10%,OpenRouter统计显示API Token日消耗量从2024年9月不足0.5T升至2025年8月近5T,一年内翻近10倍 [10] - OpenAI于2025年9月成为博通定制AI ASIC第四位客户,订单近百亿美元 [10] AI ASIC产业链环节 - 产业链分为前端(需求定义、架构设计)和后端(设计实现),云厂商多与设计服务商合作,定制芯片包括计算、存储、网络IO和封装四部分IP [13] - 国际设计服务商以博通、Marvell为主导,提供完整IP解决方案;国内主要参与者包括芯原股份、翱捷科技、灿芯股份 [14][16][28] - 关键IP包括处理器IP(如CPU/GPU)、接口IP(如SerDes)、内存IP(如HBM),SerDes技术直接影响Die-to-Die及芯片间通信效率,是AI算力关键瓶颈 [14][33] 海外云厂商自研案例 - 谷歌TPU迭代至第七代Ironwood,支持主动检索和协作推理,提供4614 TFLOPS FP8算力、192GB HBM3e内存、7.3TB/s带宽,SuperPod支持9216颗芯片互联 [18][20] - 博通作为核心服务商,2024年AI ASIC收入122亿美元,2025前三季137亿美元,其优势包括完整IP体系(21000专利)、多代TPU设计经验、3.5D SOIC封装技术、高速互连与CPO技术 [21][23] - 谷歌TPU成功源于架构创新(脉动阵列)、系统级思维(TPU Pod集群)、与博通合作降低风险和成本 [20] 国内ASIC发展现状 - 2025年上半年中国企业级大模型日均总Token消耗达10.2万亿,环比增长363%;中国AI云市场2025年规模预计518亿元,2025-2030年CAGR 26.8% [24] - 市场格局集中,CR5超75%,头部云厂商阿里云(占比35.8%)、火山引擎(14.8%)、华为云(13.1%)等均布局自研AI ASIC [24] - 百度昆仑芯第三代P800已部署万卡集群,中标中国移动10亿元集采大单;阿里平头哥PPU关键指标超英伟达A800,签获16384张卡订单;字节自研训练+推理芯片预计2026年前量产 [25][26] 国内ASIC服务商分析 - 芯原股份为国内第一设计IP厂商,拥有6类处理器IP及1600+数模混合IP,5nm系统级芯片一次成功,未来增长点来自AI ASIC、AIGC芯片等 [29][31] - 翱捷科技第一大股东为阿里巴巴,2025上半年芯片定制及IP授权服务收入约1.44亿元,通过创新架构为系统厂商提供合规ASIC [29][32] - 灿芯股份第一大股东为中芯国际,主打28nm及以上成熟制程,优化高速接口IP以适配AI推理场景 [29][32]
阿里的磐久超节点和供应链
傅里叶的猫· 2025-09-27 18:14
阿里磐久超节点技术架构 - 采用双64 GPU超节点设计 每个计算节点配置4颗自研GPU 上下各16个计算节点 总计128个GPU [4][6] - 64个GPU为一组scale up单元 华为CM384包含384颗昇腾910C 英伟达NVL72包含72颗GPU [6][7] 互联技术对比 - 英伟达NVL72采用Cable Tray互联方式 Compute tray与Switch Tray通过线缆连接 使用NVLink私有协议 [8] - 华为CM384通过多机柜组成超节点 昇腾服务器与交换机采用线缆互联 [10] - 阿里采用无背板正交互联技术 计算节点横向放置 Switch节点纵向放置 直接插接无PCB中介 降低信号损耗 [12][14] 电光互联方案 - 英伟达NVL72的scale up使用铜连接 避免光互联带来的成本与功耗上升 [15] - 华为CM384采用全光互联 NPU与光模块比例达1:14 整系统需6912个400G光模块 导致高功耗与高成本 [15] - 阿里超节点在64 GPU组内scale up采用电互联(PCB/铜缆) ALink Switch间使用光互联 具体光模块数量未披露 [18][19] 系统性能参数 - 华为CM384系统算力达300 PFLOPS(BF16密集) 超越英伟达NVL72的180 PFLOPS 但系统功耗达559,378W 是英伟达145,000W的3.9倍 [21] - 华为HBM带宽1,229 TB/s 是英伟达576 TB/s的2.1倍 但能效比劣于英伟达(1.87 W/TFLOP vs 0.81 W/TFLOP) [21] - 阿里超节点功耗超300kW 介于英伟达与华为之间 未公布算力参数 [22] 生态与兼容性 - 阿里超节点宣称支持多厂商GPU/ASIC 但需兼容ALink私有协议 实际推广存在难度 [23] - 阿里自研GPU可兼容CUDA生态 构成当前阶段竞争优势 [24] 硬件互联架构 - 英伟达GB200与Grace CPU通过NVLink-C2C直连 [26] - 华为GPU/CPU均连接至UB Switch [25] - 阿里采用独立计算节点设计 GPU与CPU通过PCIe互联 连接线隐藏在机箱背部 [28][30] 服务器供应链分析 AI服务器集成 - 浪潮占据33%-35%市场份额 华勤占23% 某企业并列第三占18% [34] - 通用服务器领域浪潮占30% 中兴通讯占27% 华勤占18% 新华三占15% [34] - 中兴通讯目标夺取浪潮市场份额第一地位 [34] 液冷解决方案 - 高澜占30%份额 英维克占30%-40% 申菱环境占20%-30% [35] - 科华数据新进入液冷白名单 预计2026年业务扩张将稀释头部企业份额 [35] 光模块供应 - 华工科技为阿里云核心供应商 份额超25%-30% [35] - 光迅科技在400G光模块市占率30%-40% 800G模块已批量供货 采用JDM合作模式 [35] - 中际旭创与航锦科技等企业分食剩余份额 [35] PCB板技术升级 - 超节点主板层数达24-30层 超低损耗材料占比超60% 单卡价值量从900元升至1900元 [36] - 沪电股份为主力供应商 AI服务器PCB收入占比达35% 高端板毛利率超35% [36] - 沪电股份与深南电路合计占50%-60%份额 其余由国内主流PCB厂商分担 [36] 服务器电源供应 - 中恒电气与欧陆通为核心供应商 覆盖主要供应量 提供浸没式液冷集中供电电源 [37] - 科华数据新进入阿里UPS白名单 有望成为第三大供应商 此前已在腾讯占据较大份额 [37]
微软的新液冷技术、阿里加大资本开支
傅里叶的猫· 2025-09-24 20:37
微软微流控液冷技术 - 微软开发微流控技术的新型液冷方案 从晶圆层面而非芯片封装层面集成液冷 技术激进但量产可行性未知 [1][3] - 英伟达研发微通道盖板技术 将冷板与芯片封装集成 技术仍处于研发阶段 [3] - 英伟达Rubin可能推出液冷新方案 具体细节未明确 [4] 阿里云资本开支与AI算力投入 - 阿里在云栖大会宣布追加资本开支 在原有3800亿基础上进一步增加投入 [7][9] - 新增资本开支将重点投向AI芯片领域 持续看好国产AI算力发展 [10] - 阿里与海光信息成立合资公司 共同建设11万颗算力芯片的大型集群 海光持股50% 合作从业务协同升级为资本绑定 [11] AI行业发展趋势与投资规模 - AI聊天机器人成为人类发展史上渗透率增速最快的功能之一 [12] - AI模型Token消耗量每2至3个月翻倍 需求快速扩张 [12] - 全球AI领域过去一年投资总额达4000亿美元 未来五年累计投入预计突破4万亿美元 [12] - 通用人工智能目标是将人类从80%重复性工作中解放 超级人工智能可催生超级科学家/工程师推动科技创新 [12] 海光芯片技术进展与应用 - 阿里云2025年Q2已采购海光深算三号DCU支撑通义千问API服务 原计划采购小几万张GPU卡 需求可能进一步增加 [13] - 海光GPU应用从私有云扩展至公有云 覆盖线上大模型一体机等场景 [13] - 海光BW 1000 GPU在FP64精度性能达30 TFLOPS 为国产芯片唯一达到该精度产品 对标英伟达H100 FP32性能60 TFLOPS FP16性能480 TOPS 配备64GB HBM2E显存 适用于超算、汽车碰撞模拟、材料研发等高精度计算场景 售价可能高于10万元 [13] - 海光发布HSL技术 通过异构卡调度提升生态友好度 重点优化CPU高速内存技术 对标英伟达Arm架构Grace CPU与GPU组合 [14] - HSL技术采用开源互联协议 实现跨厂商GPU兼容 解决内存一致性问题并提升CPU-GPU连接效率 推动生态开放 关键落地依赖互联网头部客户采纳 [15] 行业资源与生态 - 英伟达潜在供应商名单在知识星球发布 包含全面数据 [16] - 知识星球每日更新行业信息、投行数据及分析报告 并整理至网盘持续同步 [17] - 提供国产GPU卡资源 性价比高 需通过微信联系并备注姓名与行业 [19]
分析一下英伟达这1000亿的影响
傅里叶的猫· 2025-09-23 10:41
英伟达与OpenAI投资协议 - 英伟达计划通过部署10吉瓦AI数据中心方式向OpenAI投资1000亿美元 首阶段将于2026年下半年上线并使用Vera Rubin平台[1][3] - 投资形式为硬件基础设施部署而非直接现金注入 形成资金闭环循环机制[3][4] 英伟达战略动机 - 锁定OpenAI作为AI领军企业的芯片需求 防止其转向Google TPU或AMD MI系列等竞争对手产品[4] - 从芯片供应商转型为AI基础设施战略投资者 可能通过股权或回报机制分享OpenAI收益[8] - 构建"资金循环"模式:英伟达提供资金 OpenAI用于采购英伟达硬件 确保供应链主导权[4] AI芯片行业竞争格局 - 国际厂商芯片迭代速度激进 年均推出1-2款新产品 英伟达Blackwell B100/B200配置HBM3E 192-288GB内存[9][11] - AMD MI300X配置HBM3 192GB内存 MI325X升级至HBM3E 256GB 2025年MI350/355X将达HBM3E 288GB[11] - Google TPU v5p配置HBM2E 95GB内存 Ironwood(TPU v7)升级至HBM3E 192GB[11] - Amazon Trainium2配置HBM3 96GB内存 Trainium2 Ultra达HBM3E 96GB[11] - Meta MTIA 2配置LPDDR5 128GB内存 MTIA 3升级至HBM3E 216GB[11] 中国AI资本开支趋势 - 中国主要互联网与电信企业资本开支总额从2022年1130亿美元增长至2027E2390亿美元[14] - 字节跳动资本开支从2022年80亿美元增至2027E330亿美元 阿里巴巴从60亿美元增至180亿美元[14] - 腾讯从50亿美元增至140亿美元 华为从50亿美元增至120亿美元[14] - 预测阿里巴巴可能将3年3800亿投资计划扩展至5年1万亿(年均2000亿)字节跳动可能达年2500亿规模[14]