Workflow
杰文斯悖论
icon
搜索文档
深度|SemiAnalysis万字解析英伟达GTC 2025:为推理而生,从硅片到系统再到软件的推理优化,买得越多,赚得越多
Z Finance· 2025-03-19 11:41
文章核心观点 - AI计算竞赛中效率提升成影响市场格局关键变量,Nvidia硬件进步和软件优化推动推理成本下降,虽引发市场对AI硬件“供过于求”担忧,但符合“杰文斯悖论”,计算力普及将催生更多应用推高AI产业规模,Nvidia重新定义GPU计算经济学并开创行业标准 [1] AI模型进展与市场担忧 - AI模型进展速度加快,三个扩展定律叠加协同工作,今年GTC致力于解决新扩展范式,Nvidia专注提高推理成本以实现模型训练和部署,口号从“买得越多,省得越多”变为“省得越多,买得越多” [4] - 市场担忧软件优化和硬件改进致成本过高使AI硬件需求下降、市场供过于求,但随着智能价格下降和能力提升,对智能需求将无限增长,Nvidia提供数据支持杰文斯悖论 [5][6] 詹森数学规则 - 第一条规则是Nvidia总体FLOP以2:4稀疏度与密集FLOP表示,如H100的FP16的989.4 TFLOP被引用为1979.8 TFLOP [10] - 第二条规则是带宽以双向方式引用,如NVLink5传输和接收速度均为900GB/s,被引用为1.8TB/s [10] - 第三条规则是GPU数量根据封装中GPU芯片数量而非封装数量计算,从Rubin开始采用此命名法 [11] GPU和系统路线图 布莱克韦尔Ultra B300 - B300以GPU形式出售,位于可装入口袋的SXM模块上,带Grace CPU和可装入口袋的BGA,与B200相比,FP4 FLOP密度高出50%以上,内存容量升级到每包288GB,带宽仍为8 TB/s [16] - B300 HGX版本现称B300 NVL16,将取代B200 HGX外形尺寸,采用16个封装和基板上的GPU芯片,封装技术采用CoWoS - L,16个GPU通过NVLink协议通信,不具备Astera Labs的重定时器,部分超大规模计算厂商将选PCIe交换机,还将引入CX - 8 NIC,网络速度提高一倍 [17][18] Rubin规格 - Rubin在台积电3nm上配备两个光罩大小计算芯片,两侧有I/O模块,提供50 PFLOP密集FP4计算能力,比B300一代提升三倍多,通过I/O芯片释放空间、采用3nm工艺、提高TDP和架构扩展等实现 [21] - Rubin再次使用Oberon机架架构,与Vera CPU配对,新机架有72个GPU封装但命名为VR200 NVL144,含144个计算芯片,Nvidia HBM容量保持288GB升级到HBM4,带宽达13TB/s,采用6代NVLink速度翻倍,NVSwitch ASIC聚合带宽翻倍 [24][25][26] Rubin Ultra规格 - Rubin Ultra性能提升显著,HBM堆栈从8个跃升至16个,计算面积和能力翻倍达100 PFLOP密集FP4,HBM容量达1024GB,系统有365 TB快速内存/第二层LPDDR,将引入Kyber Rack架构 [30][31][32] Kyber Rack架构 - 关键新功能是将机架旋转90度增加密度,NVL576配置下每个计算盒有一个R300 GPU和一个Vera CPU,PCB板背板取代铜缆背板,可能有VR300 NVL1,152变体,还将推出7代NVSwitch [33][35] 改进型指数硬件单元 - GPU中GEMM在张量核心执行,专注元素级指数计算的MUFU单元性能提升慢,在bf16 Hopper和FP8 Hopper上计算softmax存在问题,Blackwell Ultra重新设计SM并添加指令,MUFU单元性能提高2.5倍 [39][40][41] 推理堆栈和Dynamo - 去年GTC讨论GB200 NVL72比H200推理吞吐量提高15倍,今年Nvidia在硬件和软件领域加速推理吞吐量提升,Blackwell Ultra GB300 NVL72和Rubin一代网络升级提高推理吞吐量,软件领域推出Nvidia Dynamo [43][46] - Dynamo带来智能路由器、GPU规划器、改进的NCCL Collective推理、NIXL、NVMe KV - Cache卸载管理器等新功能,全面提升推理速度,使DeepSeek创新民主化,有助于个人复制和更高交互性部署 [47][49][60] AI总拥有成本 - Blackwell性能比Hopper高出68倍,成本降低87%,Rubin预计性能是Hopper的900倍,成本降低99.97%,Nvidia追求进步,建议生态系统优先部署下一代系统 [61][63] - 研究的H100租赁价格预测框架准确率达98%,结合多方面估计构建预测价格曲线 [64] CPO插入 - Nvidia宣布首款共封装光学(CPO)解决方案,部署在横向扩展交换机中,CPO降低功耗,可使网络扁平化一层,400k* GB200 NVL72部署从三层网络转两层网络可节省12%总集群功耗 [69][70] - 推出多款基于CPO的交换机,Quantum X - 800 3400的CPO版本2025年下半年推出,Spectrum - X交换机2026年下半年推出,长远看CPO可增加GPU扩展网络基数和聚合带宽 [73][75] 行业地位 - 尽管亚马逊Trainium芯片定价低,但Nvidia技术领先,新架构、机架结构、算法改进和CPO使其与竞争对手拉开差距,预计将继续领先 [76]
AI投资机会怎么看?外资机构发声
证券时报· 2025-03-13 13:07
AI推动新一轮资本开支增长 - 全球主要科技企业正在推动新一轮资本支出扩张,美国四大云服务和AI企业的资本开支总额预计将从2023年的1500亿美元增长至2024年的3000亿美元,实现翻倍 [3] - 半导体企业成为AI基础设施建设的重要受益方,英伟达数据中心相关收入预计从2023年的500亿美元增长至2024年的约1800亿美元,增长超过三倍 [3] - AI模型从预训练发展到训练后优化(如RLHF)将推动算力需求持续增长,对AI基础设施的需求维持高位 [4] 低成本革命开启中国资产重估 - DeepSeek发布的大型语言模型引发市场对中国科技企业估值逻辑的重塑,低推理成本与强大制造业供应链让中国在AI应用和物联网领域的推进速度有望超过美国 [6] - 中国在数据、研发和人才方面的优势推动DeepSeek成功,训练成本降低将加速AI技术落地并推动设备更新换代 [6] - 中国科技"七巨头"概念兴起,AI行情带动科技股新一轮价值重估,中国可能首次在全球技术革命中处于领先地位 [7] AI+产业链重塑未来投资方向 - 半导体、机器人、算力基础设施等方向将在AI革命与全球制造升级背景下迎来持续发展机遇 [9] - 半导体行业在医疗、航空航天、能源基础设施、机器人等新兴领域具有巨大增长空间 [9] - 中国在全球供应链中扮演关键角色,尤其在机器人领域从核心零部件到整机全产业链占据主导地位 [9] - AI技术将深入实体经济,带动智能制造、自动驾驶、物联网等多场景落地,中国企业有望在全球产业链中占据更高地位 [10] - 重点关注AI在具身智能、消费电子、智能驾驶等领域的应用,以及半导体硬件、云计算等基础设施和国产高端装备、芯片制造等自主可控领域 [10]
DeepSeek对英伟达长期股价的潜在影响
致富证券· 2025-03-12 14:38
报告行业投资评级 未提及 报告的核心观点 - DeepSeek在训练和推理成本上有显著优势,引发科技股大幅波动,短期内冲击英伟达股价,但长远看随着AI技术普及和商业化加速,英伟达芯片需求可能进一步增长,AI产业将迈向新阶段 [2][3][16] 根据相关目录分别进行总结 DeepSeek引发市场波动 - 1月27日,DeepSeek在中国区和美国区苹果App Store免费榜登顶,美国科技股市场大幅下跌,费城半导体指数下跌9.2%,英伟达股价下跌近17%,市值蒸发近6000亿美元,WTI原油价格盘中一度下跌3% [2] DeepSeek成本优势 - 训练成本方面,DeepSeek使用约2000张H800 GPU训练,V3模型训练成本不超过600万美元,预训练阶段每万亿Token训练用2048个H800 GPU集群,180K个GPU小时(约3.7天)完成,总耗时约2788K GPU小时 [5][6] - 推理成本方面,OpenAI的o1模型每百万输入和输出Token分别收费15美元和60美元,DeepSeek的R1模型相同输入和输出价格仅为OpenAI的3%,DeepSeek推理成本API报价每百万Token输入成本仅1元 [3][7] DeepSeek低成本训练实现方式 - DeepSeek团队创新训练策略,在监督微调环节优化,最初尝试跳过SFT步骤仅用强化学习训练,引入少量冷启动数据提升稳定性和推理能力,R1系列模型摒弃RLHF中的人类反馈部分 [9] - 为解决纯强化学习训练文本中英混杂问题,用数千条链式思考数据微调V3 - Base模型,再启动强化学习流程生成样本数据微调得到R1模型,降低成本同时提升推理和语言生成质量 [10] DeepSeek对AI产业影响 - 对依赖自研大模型构建商业模式的公司影响更显著,如引发Meta内部AI团队担忧,Meta成立小组分析其技术原理并计划用于Llama模型优化 [12] - 美国大型科技企业以保持技术领先为首要目标,虽可能借鉴DeepSeek方法优化成本,但不会作为核心战略,现阶段大语言模型发展需大量算力,未来其他机器学习模型也可能有巨大算力需求 [13] - 英伟达认为DeepSeek成果会增加市场对其芯片需求,依据杰文斯悖论,技术进步降低资源使用成本会使市场对资源总体需求上升 [14] - DeepSeek降低大语言模型开发门槛,促使更多中小型企业和个人训练私有模型,若引发推理需求“第二波”增长,增量需求将远超AI巨头减少的GPU采购量,且商业化后推理环节算力消耗更大 [15]
低点反弹30%+,拐点真的来了!
格隆汇APP· 2025-03-09 17:12
作者 | 弗雷迪 数据支持 | 勾股大数 据(www.gogudata.com) 存储芯片在各类应用场景几乎不可或缺,更是伴随AI应用爆发需要升级迭代的硬件基础,"内存 墙"的桎梏,让三星电子、美光、SK 海力士等吃到第一波丰盛的果实。 但今年以来,随着国产大模型DeepSeek在应用端的高歌猛进,A股算力、机器人、半导体等科技主 题概念集体爆发,存储芯片这一细分领域也不例外。 以存储概念为例,板块自1月7日开始企稳反弹,目前累计涨幅已超30%。 然而,供不应求的只有企业级存储市场,消费级市场芯片价格处于跌势当中,整体拖累了存储芯片 市场的复苏。 现如今,曙光终于迎来。 01 算力需求转移:从训练到推理 前不久,阿里宣布未来三年云和AI基建投入预计超过去10年总和,到近期多家A股公司公布算力订 单,验证AI基建需求大趋势。 在以阿里为首的国内云厂商资本开支增加的推动下,AI应用落地有望加速,AI商业模型有望闭环。 而存力作为贯通上游算力设施和下游终端设备的重要部分,在AI基建浪潮的下半场也同样应该得到 重视。 当前,用于AI训练和推理的数据中心对HBM(高带宽内存)和SSD(固态硬盘)的需求旺盛。 HBM由多 ...
喝点VC|Greylock解读DeepSeek-R1,掀起AI革命和重构经济秩序
Z Potentials· 2025-03-04 13:33
开源与闭源模型 - DeepSeek-R1 缩小了开源模型与闭源模型的差距 在关键推理基准测试中与 OpenAI 最新模型持平 尽管其规模更小 [2] - 开源模型在质量上已与最先进的闭源模型持平 标志着开源将模型层商品化的转折点 [2] - 开源模型的进步将推动 LLM 市场的竞争 企业将拥有多样化的实用选项 在计算能力、成本和性能之间进行权衡 [2][3] AI 基础设施与开发者使用 - DeepSeek-R1 利用强化学习(RL)提升推理能力 采用广义策略优化强化学习(GRPO)技术 是首个成功大规模实施并取得可测量增益的开源模型 [3] - 强化学习的突破被视为游戏规则的改变者 但当前 AI 工具尚未完全支持这一新范式 [3] - 开源模型的普及消除了“最大最好模型必须封闭”的护城河 企业可以完全掌控前沿模型 [4] 新应用与行业影响 - DeepSeek 增强的推理能力开启新应用浪潮 包括自主 AI 代理、专业规划系统和企业 AI 助手 [5] - 高度监管行业将受益于开源模型 因为企业可以完全控制数据的使用方式和发送目的地 [6] - 数据质量仍是关键优势 特定领域的标注和奖励函数对模型性能至关重要 [6] GenAI 经济学 - DeepSeek 降低了推理和训练成本 改变了 GenAI 部署的经济性 企业将更多地使用 AI 并部署多个特定领域模型 [7] - 开源模型的成本比使用 OpenAI 或 Anthropic 便宜多达 7 倍 解锁了更多经济上不可行的案例 [7] - 生成器的商品化趋势将推动标注技术的进步 包括 RLHF 和奖励函数等方法的优化 [8] 行业展望 - DeepSeek 标志着开源模型首次真正达到与专有替代品竞争的水平 开启了 AI 发展的新时代 [8] - 高质量、特定领域的数据和标注仍是 AI 未来的关键 尽管 DeepSeek 代表了有意义的进展 [8]
DeepSeek+风起,金融行业率先加速生产力落地
格隆汇APP· 2025-03-03 18:45
作者 | 古尔波什 数据支持 | 勾股大数 据(www.gogudata.com) 当DeepSeek-V3以557.6万美元的预训练成本,在数学推理与代码生成领域追平硅谷巨头耗资数亿美元研发的顶尖模型时,"算力 平权运动"正式开启。 这场运动正在重构人工智能发展的底层逻辑。 在荷兰,全球光刻机霸主ASML的首席执行官用一组精妙的悖论揭示了变革本质:"当单个AI模型的训练成本从数亿美元压缩至百 万级,看似收缩的算力需求反而会催生指数级市场扩容。" 这让人想起经济学中的"杰文斯悖论"——当某种资源的使用效率大幅提升时,人们实际消耗的这种资源总量非但不会减少,反而 会激活更广阔的市场空间。 " 杰文斯悖论 " 核心逻辑 算法创新的裂变式突破与开源生态的协同进化,构成了瓦解算力垄断的双螺旋。全球开发者社区突然发现:那些曾被科技巨头用 天价算力构筑的技术护城河,正在开源代码的侵蚀下以极快的速度崩解。这种去中心化的技术民主化进程,使创新成果从巨头手 中平等地流向中小企业与个人,渗透到社会的每一个角落。 在算力平民化激发需求裂变的商业逻辑下,云厂商迎来机会和挑战。 更深层的变革发生在技术权力结构的底层——云厂商忙着从基础 ...
DeepSeek的545%利润率,是对算力的核弹吗?
华尔街见闻· 2025-03-02 20:40
文章核心观点 - DeepSeek在开源周展示出高成本利润率,引发对其利润率解读、对算力产业链、云产业链、大模型同行及行业生态影响的讨论,揭示了infra优化潜力,推动行业变革,预示高效、低成本、竞争激烈的AI时代到来 [1][28] 如何解读这个利润率 - DeepSeek官方公布的545%利润率是特定条件下的理论计算,真实利润率没这么夸张 [6] - 科技博主180K解读,R1模型利润率约85%,按V3定价利润率降至70%左右,仍很可观 [7] - 通过对比Anthropic利润率可知,OpenAI和Anthropic虽成本控制不如DeepSeek,但凭借高定价和慷慨客户也能实现类似高利润率,OpenAI常被报道“亏损”是因融资时投资者关注财务会计盈亏 [7] 是否是对算力的核弹 - DeepSeek案例证明在硬件条件有限(使用H800)下,通过极致infra优化可实现高算力利用率和性能,对算力产业链影响大 [8] - 科技博主180K认为“有效算力”重要性将凸显,国产芯片上限有望提升 [8] - 科技博主信息平权认为“杰文斯悖论”生效,算力效率提升会刺激应用场景出现,推动算力需求增长,巴克莱银行预测到2026年业界资本支出可支撑“12000 + 个ChatGPT级别的应用” [9] - 短期内算力需求逻辑可能受质疑,海外大厂CIO或CFO可能面临解释ROI低于DeepSeek的压力 [10] - 知名投资人段永平赞同黄仁勋观点,认为DeepSeek创新不会减少算力需求,R1激发市场对高效AI模型追求,推动行业发展 [11][12] - 国外科技博主Zephyr认为DeepSeek已将英伟达“击倒”,其算力利用率满足全球AI需求绰绰有余 [13] 对云产业链意味着什么 - DeepSeek让AI云计算与传统云计算相似性更明显,面临“低峰期闲置率”和“高峰期稳定性”挑战 [3][19] - 科技博主180K认为云计算规模效应更显著,用户数量正外部性明显,云厂商竞争优势可能变化,有自身业务的云厂商更具成本优势 [19] - 云计算利润率有提升空间,私有云部署吸引力可能下降,普通云计算/AI应用需为高强度用户并发预留更多空间,利润率可能下降 [20] 对大模型同行意味着什么 - DeepSeek开源和技术披露为行业树立新标杆,推理成本“底线”被大幅拉低,可能引发新一轮价格战,同行面临降价压力 [4][21] - DeepSeek为推理团队提供优化路径和目标,后续压力加大,OpenAI高价订阅模式面临挑战 [22][23] 对生态意味着什么 - DeepSeek专注基础模型和前沿创新,通过开源技术吸引业界构建to B和to C业务,形成完整产业上下游 [5][24] - 科技博主极客公园表示生态合作伙伴盈利空间增大 [25] - 后续模型架构差异化可能成竞争关键,DeepSeek开源降低社区复现推理系统难度,利于生态繁荣 [26][27] - 科技博主180K表示行业可能开始卷Infra,Infra重要性和估值提高 [28]
戴尔第四季度预览:推理 AI 助阵 ,现在是买入好时机吗?
美股研究社· 2025-02-27 18:41
戴尔股价落后原因 - 自11月以来股价落后市场 主要因市场担忧AI数据中心建设放缓 尤其微软资本支出战略变化传闻影响[1] - 市场担忧Blackwell支持的预训练集群效率提升 而AI模型过去三个月未呈指数增长 导致GPU需求增速放缓[1] AI计算范式转变 - 行业正从预训练为中心转向推理计算为中心 后者扩展性更优且成本更低[2] - 推理AI指模型产生预测的过程 相比预训练更快更便宜 预训练则更深入彻底[3] - 未来数据中心将更多采用"推理本田"模式(小型低成本)而非"预训练法拉利"(大型高成本)[3] 戴尔战略合作与技术优势 - 与AMD达成协议 Ryzen AI PRO处理器将为戴尔设备提供实时字幕 语言翻译及更高安全性[4] - AMD CEO指出其MI300X GPU在推理计算TCO上显著优于Nvidia H100 戴尔可通过替代方案降低系统成本[4] - 摩根士丹利数据证实AMD的TCO远低于Nvidia 戴尔将受益于此技术路线[4] 财务表现与预期 - Q4财报预期EPS 2 52美元(同比+14 46%) 收入245 7亿美元(同比+10 09%) 分析师预测区间狭窄显示共识强[5] - 过去三个月EPS预测20次修正中18次下调 收入16次修正中15次下调 但分析师认为存在上行惊喜空间[6][7] 重大商业合作 - 即将与xAI签署50亿美元协议 显著提升AI服务器业务规模[8] - 预计2024-2025财年AI服务器出货量增加40亿美元[9] 估值与增长潜力 - 非GAAP预期市盈率14 5 较行业中值23 87折价39 26% 量化评级A-[9] - 预期市销率0 83 较行业中值3 11低73 43% 量化评级A[9] - 若市盈率回归行业中值 股价潜在涨幅达64 6%[9] 行业趋势支撑逻辑 - 杰文斯悖论显示AI代币使用成本下降将刺激总需求增长 推理计算市场扩张利好戴尔[10] - AI模型工具价值提升推动消费需求 转向低成本推理GPU集群趋势与戴尔战略契合[10] - 与AMD xAI的合作将直接推动销售增长 叠加行业转型形成双重催化剂[11]
微软CEO纳德拉最新访谈:开源是对赢者通吃的最大制约
IPO早知道· 2025-02-25 10:39
作者:MD 出品:明亮公司 2月19日,微软宣布, 全球首款拓 扑 量子芯片Major ana 1发布, 据相关报道,该芯片由微软公司 历时近20年研发,有望于2030年之前上市。而微软的目标是未来在量子芯片上实现百万个 量子比特 的相 干操纵。 据第一财经报道,Majorana 1是基于全新的物质状态——"拓扑"构建而成的全球首款拓扑量子芯片, 采用了半导体砷化铟和超导体铝材料。 微软在2月19日发布的一篇博客中称,开发合适的材料来构建量子比特,并理解量子比特相关的物质 拓扑状态的难度极大,这也是大多数量子研究都集中在其他类型量子比特的原因。 同日,微软CEO萨提亚·纳德拉与主播Dwarkesh Patel的播客访谈也对此进行了讨论。在1小时17分钟 的访谈中,纳德拉分享了他对于微软在量子计算领域取得突破的感受、过程(" 这对我们来说是一个 30年的旅程。") 和未来潜在的应用场景。此外,纳德拉还着重分享了他对于AI在法律和社会治理层 面的思考,以及AGI的认知,目前AI领域的技术突飞猛进,但 纳德拉认为AGI来临的真正标志是世 界经济增长10%。 关于DeepSeek带来的成本变化,此前纳德拉在X上提到的 ...