DeepSeek v3.2
搜索文档
大摩开门会:中国AI算力的供给及需求
2025-12-15 09:55
纪要涉及的行业或公司 * **行业**:中国算力(AI芯片)供给与需求、半导体制造、数据中心、服务器硬件供应链[1][5][10] * **公司**: * **云厂商/互联网公司 (CSP/Hyperscaler)**:腾讯、阿里巴巴、百度[3][7] * **AI芯片设计公司**:腾讯(紫微元)、阿里巴巴(平头哥)、百度(昆仑芯)、字节跳动[7] * **芯片制造/代工厂**:台积电、中芯国际(SMIC)[8][9] * **服务器硬件供应链**: * PCB/主板:FRI、微创(UVB主板主要受益者)[10][11] * 整机组装:浪潮(主要)、联想[11] * 被动元件[11] * **数据中心运营商**:万国数据、世纪互联、VNET[4] 核心观点和论据 * **H200进口政策展望**:监管层可能倾向于允许中国企业采购H200,但可能需通过审批形式,因其是主要针对训练且性能领先的芯片,国内尚无很好替代品;这与主要针对推理且国产芯片已能满足需求的H20情况不同[2][3] * **中国AI算力需求强劲且短缺**:中国AI算力芯片供不应求,腾讯曾因GPU供应限制下调资本支出(CapEx);主要云厂商资本支出预计未来三年以每年25%的复合年增长率(CAGR)增长,到2027年达近4500亿水平,但仍远低于美国大厂[3][4] * **云厂商算力部署策略**:因GPU限制,云厂商更倾向于在海外数据中心部署训练芯片进行模型训练,国内数据中心租赁更多用于推理需求[5] * **国产AI芯片发展路径**: * **设计**:国内云厂商通过转投资或合作的芯片伙伴(如腾讯紫微元、阿里平头哥、百度昆仑芯)设计ASIC,通过在台积电流片(在符合性能密度等阈值规定内)来满足部分需求[7][8] * **制造**:预计2027年国产算力芯片需求达48万片12英寸晶圆(wafer);中芯国际(SMIC)产能规划从今年月均约8000片增至明年2万片,后年3-4万片[9] * **供应链受益分析**: * **上游/代工**:H200对台积电营收贡献约1%(每100万颗H200前端及CoWoS成本约13亿美元)[9];国产Neuron芯片需求也为台积电中国业绩提供增量[12] * **中下游硬件**:PCB打件/OEM主要供应商FRI、主板主要受益者微创、整机组装主要厂商浪潮是明确受益者;联想也受惠但对其总营收影响不明显(年营收约600-700亿美元)[10][11] * **行业整体影响**:放开H200进口将对云厂商(AI赋能者)产生正面影响,并辐射至下游模型应用及上游数据中心运营商;进口与国产芯片在未来一两年将并行发展,共同成长以满足远未满足的算力需求[4][6][9] 其他重要内容 * **芯片性能规定**:存在针对单位面积算力(Performance Density)的阈值规定,低于阈值无需许可,在阈值范围内需申请许可,超过则台积电不接单;国产芯片设计需在此规范内调整[8] * **供应链安全保障**:出于国家安全和供应链保障考虑,云厂商仍需本土芯片来源,因此国产化需求长期存在[8] * **H200的吸引力**:即使加征25%关税,H200因其在服务器中的高性价比,对中国云厂商仍具很强吸引力[6][7]
AI 价值链-Google Gemini 3 Pro、Claude Opus 4.5、Grok 4.1 与 DeepSeek 3.2…… 谁才是真正的领导者?这意味着什么
2025-12-12 10:19
涉及的行业与公司 * **行业**:人工智能(AI)行业,特别是大型语言模型(LLM)领域、AI基础设施与半导体行业 [1] * **公司**: * **AI模型开发商**:Google(Gemini)、Anthropic(Claude)、xAI(Grok)、OpenAI(GPT)、Meta、DeepSeek [2][3][6] * **半导体与基础设施供应商**:NVIDIA(NVDA)、Advanced Micro Devices(AMD)、Broadcom(AVGO) [7][10] * **云服务与互联网平台**:Amazon(AMZN)、Alphabet(GOOGL)、Meta Platforms(META) [9][11][12] 核心观点与论据 * **近期模型性能评估**:Gemini 3 Pro 与 Claude Opus 4.5 在第三方基准测试中表现不相上下,而 DeepSeek v3.2 的领导地位声明受到更多质疑,因其基准测试排除了 Claude Opus 4.5 且在某些代理任务上承认落后 [3][14][16] * **缩放定律依然有效**:预训练和后训练的缩放定律显然并未失效,这增强了AI实验室及其资金支持者快速建设AI基础设施的信心 [4][15] * **OpenAI面临挑战**:OpenAI已从明显领先者地位滑落,可能已不在前三,原因包括GPT-5表现令人失望、连续三次预训练失败、关键人才大量流失以及管理层发出“红色警报” [6][18] * **计算稀缺是核心主题**:尽管新模型未使用 Blackwell GPU 且部分使用ASIC/TPU训练引发对NVIDIA护城河的担忧,但当前核心主题是计算稀缺,GPU和ASIC都将因此受益 [7][20][22] * **范式向产品化与货币化转移**:长期来看,行业范式可能从模型基准测试转向产品采用和货币化,Gemini 3 虽性能领先但未能取代 ChatGPT 在应用商店的榜首位置即是例证 [8][22] * **投资影响**: * **NVIDIA(NVDA)**:数据中心机会巨大且仍处早期,近期股价停滞反应过度,当前估值具有吸引力 [10][22] * **Broadcom(AVGO)**:强劲的2025年AI发展轨迹预计将在2026年加速 [10] * **AMD(MP)**:AI预期仍高,但与OpenAI的新交易有望推动进一步增长 [10] * **Amazon(AMZN)**:随着大量产能上线、Tranium 3 推出及企业级AI产品简化,AWS增长预计将加速 [11] * **Alphabet(GOOGL)**:Gemini 3 的发布和TPU叙事支撑了其强劲走势,但需关注从纯模型性能向产品采用的转变 [11][22] * **Meta(META)**:被认为是最有能力将AI货币化的公司之一,需平衡盈利增长与AI模型前沿进展 [12] 其他重要细节 * **模型发布与参数**:过去三周内发布了 Grok 4.1、Gemini 3 Pro、Claude Opus 4.5 和 DeepSeek v3.2 四款模型,DeepSeek v3.2 披露总参数量为 6850亿,每令牌激活约 370亿 参数 [2][16] * **基准测试数据**: * LLM Arena 总体排名显示 Gemini 3 Pro 第一,Grok 4.1-thinking 第二,Claude Opus 4.5 第三 [36] * Google 披露的基准测试中,Gemini 3 Pro 在多项测试领先,例如 Humanity's Last Exam(45.8%)、AIME 2025(100%)、Vending-Bench 2(平均净值 5,478.16 美元) [24] * **基础设施成本分析**: * 一个 GB200 / NVL 72 机架的物料成本(BOM)约为 341.3万美元,其中 GPU(含设计毛利)占比 38.8% [38] * 支持 1吉瓦(GW)数据中心容量的总资本支出约为 35.2亿美元,其中机架成本占 20.2亿美元 [39] * **估值与目标价**: * NVIDIA(NVDA):目标价 275美元,基于约 33倍 的 FY27/FY28 平均非GAAP每股收益预期 8.43美元 [43] * AMD(AMD):目标价 200美元,基于约 30倍 的 FY2026/27 平均非GAAP每股收益预期 6.95美元 [44] * Broadcom(AVGO):目标价 400美元,基于约 35倍 的 FY2026/27 平均备考每股收益预期 11.38美元 [45] * Amazon(AMZN):目标价 300美元,采用 SOTP 和 DCF 各占 50% 的估值方法 [46] * Alphabet(GOOGL):目标价 305美元,采用 2027年 EV/EBIT 倍数(23倍)和 DCF 各占 50% 的估值方法 [47] * Meta(META):目标价 870美元,采用 2027年 EV/Sales 倍数(8倍)和 DCF 各占 50% 的估值方法 [48]
DeepSeek突然拥抱国产GPU语言,TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配
36氪· 2025-09-30 10:52
TileLang技术特性 - TileLang是一种专门用于开发GPU内核的领域专用语言,性能可对标英伟达CUDA,采用Python式语法并在TVM之上构建编译器基础架构[4][13] - 其核心设计理念是将调度空间与数据流解耦并封装为可自定义的注解和原语,以Tile作为编程模型核心概念,直观控制数据在全局内存、共享内存和寄存器间的流动[15] - 提供三个层次编程接口:硬件无关的高层接口供初学者使用,包含预定义优化操作的Tile Library供有经验开发者使用,以及允许直接操作线程同步等底层特性的线程原语供专家用户使用[15] 性能优势与效率提升 - 使用TileLang只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现[3] - 在FlashAttention算子开发中,代码量从500多行减少至80行,并保持与官方版本持平的性能[5] - 在H100上的MLA解码速度,TileLang编写的内核做到与FlashMLA相当[21] 行业生态适配与合作 - TileLang与国产算力生态适配,华为昇腾在第一时间公告对TileLang的支持[4] - 沐曦集成电路的高级总监董兆华与TileLang团队成员共同讨论沐曦GPU与TileLang的适配[5] - 该语言由北大团队主导开发,核心人物包括王磊、董宇骐以及北大计算机学院副研究员、博士生导师杨智[9] DeepSeek与TileLang的合作关系 - DeepSeek在v3.2中开源TileLang版本算子,其受关注程度超过新稀疏注意力机制DSA[1] - DeepSeek团队使用TileLang快速开发原型,之后用更底层的方法进一步优化性能,v3.2论文中提到在内核层面共享k-v提升计算效率,让DSA的闪电索引器机制运行速度远超传统实现[17] - DeepSeek v3.2验证了TileLang确实可以用来训练模型,TileLang发起人王磊发帖致敬DeepSeek敢于使用新编程语言开发核心产品[23]
DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配
量子位· 2025-09-30 08:57
TileLang技术特性 - 专门用于开发GPU内核的领域专用语言,性能对标英伟达CUDA[6] - 采用Python式语法,在TVM之上构建底层编译器基础架构[18] - 核心设计理念是将调度空间与数据流解耦,封装为可自定义的注解和原语[19] - 提供三个层次编程接口:硬件无关高层接口、优化过的预定义操作库、线程原语级别控制[20][21][22][23] - 以"Tile"为编程模型核心概念,通过显式Tile抽象控制数据在内存间的流动[19] TileLang性能表现 - 只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现[5] - 在华为昇腾上实现FlashAttention算子开发,代码量从500+行减少至80行,性能与官方版本持平[8] - 在H100上的MLA解码速度与FlashMLA相当[31] - 通过缓存中间数据,比全局内存快得多[28] DeepSeek与TileLang合作 - DeepSeek v3.2开源TileLang版本算子,关注度超过新稀疏注意力机制DSA[2] - DeepSeek团队使用TileLang快速开发原型,后用更底层方法进一步优化性能[26] - TileLang团队成员曾向DeepSeek团队推荐该语言,并以DeepSeek发布的FlashMLA内核作为评测基准[29][31] - DeepSeek v3.2验证了TileLang可用于训练模型[34] 产业生态支持 - 华为昇腾在第一时间公告对TileLang的支持[7] - 沐曦集成电路与TileLang团队讨论GPU适配问题[9] - TileLang由北大团队主导开发,核心人物包括王磊、董宇骐和杨智[15] - GitHub项目获得1.9k星标,172次fork[18]