Workflow
杰文斯悖论
icon
搜索文档
深度|SemiAnalysis万字解析英伟达GTC 2025:为推理而生,从硅片到系统再到软件的推理优化,买得越多,赚得越多
Z Finance· 2025-03-19 11:41
文章核心观点 - AI计算竞赛中效率提升成影响市场格局关键变量,Nvidia硬件进步和软件优化推动推理成本下降,虽引发市场对AI硬件“供过于求”担忧,但符合“杰文斯悖论”,计算力普及将催生更多应用推高AI产业规模,Nvidia重新定义GPU计算经济学并开创行业标准 [1] AI模型进展与市场担忧 - AI模型进展速度加快,三个扩展定律叠加协同工作,今年GTC致力于解决新扩展范式,Nvidia专注提高推理成本以实现模型训练和部署,口号从“买得越多,省得越多”变为“省得越多,买得越多” [4] - 市场担忧软件优化和硬件改进致成本过高使AI硬件需求下降、市场供过于求,但随着智能价格下降和能力提升,对智能需求将无限增长,Nvidia提供数据支持杰文斯悖论 [5][6] 詹森数学规则 - 第一条规则是Nvidia总体FLOP以2:4稀疏度与密集FLOP表示,如H100的FP16的989.4 TFLOP被引用为1979.8 TFLOP [10] - 第二条规则是带宽以双向方式引用,如NVLink5传输和接收速度均为900GB/s,被引用为1.8TB/s [10] - 第三条规则是GPU数量根据封装中GPU芯片数量而非封装数量计算,从Rubin开始采用此命名法 [11] GPU和系统路线图 布莱克韦尔Ultra B300 - B300以GPU形式出售,位于可装入口袋的SXM模块上,带Grace CPU和可装入口袋的BGA,与B200相比,FP4 FLOP密度高出50%以上,内存容量升级到每包288GB,带宽仍为8 TB/s [16] - B300 HGX版本现称B300 NVL16,将取代B200 HGX外形尺寸,采用16个封装和基板上的GPU芯片,封装技术采用CoWoS - L,16个GPU通过NVLink协议通信,不具备Astera Labs的重定时器,部分超大规模计算厂商将选PCIe交换机,还将引入CX - 8 NIC,网络速度提高一倍 [17][18] Rubin规格 - Rubin在台积电3nm上配备两个光罩大小计算芯片,两侧有I/O模块,提供50 PFLOP密集FP4计算能力,比B300一代提升三倍多,通过I/O芯片释放空间、采用3nm工艺、提高TDP和架构扩展等实现 [21] - Rubin再次使用Oberon机架架构,与Vera CPU配对,新机架有72个GPU封装但命名为VR200 NVL144,含144个计算芯片,Nvidia HBM容量保持288GB升级到HBM4,带宽达13TB/s,采用6代NVLink速度翻倍,NVSwitch ASIC聚合带宽翻倍 [24][25][26] Rubin Ultra规格 - Rubin Ultra性能提升显著,HBM堆栈从8个跃升至16个,计算面积和能力翻倍达100 PFLOP密集FP4,HBM容量达1024GB,系统有365 TB快速内存/第二层LPDDR,将引入Kyber Rack架构 [30][31][32] Kyber Rack架构 - 关键新功能是将机架旋转90度增加密度,NVL576配置下每个计算盒有一个R300 GPU和一个Vera CPU,PCB板背板取代铜缆背板,可能有VR300 NVL1,152变体,还将推出7代NVSwitch [33][35] 改进型指数硬件单元 - GPU中GEMM在张量核心执行,专注元素级指数计算的MUFU单元性能提升慢,在bf16 Hopper和FP8 Hopper上计算softmax存在问题,Blackwell Ultra重新设计SM并添加指令,MUFU单元性能提高2.5倍 [39][40][41] 推理堆栈和Dynamo - 去年GTC讨论GB200 NVL72比H200推理吞吐量提高15倍,今年Nvidia在硬件和软件领域加速推理吞吐量提升,Blackwell Ultra GB300 NVL72和Rubin一代网络升级提高推理吞吐量,软件领域推出Nvidia Dynamo [43][46] - Dynamo带来智能路由器、GPU规划器、改进的NCCL Collective推理、NIXL、NVMe KV - Cache卸载管理器等新功能,全面提升推理速度,使DeepSeek创新民主化,有助于个人复制和更高交互性部署 [47][49][60] AI总拥有成本 - Blackwell性能比Hopper高出68倍,成本降低87%,Rubin预计性能是Hopper的900倍,成本降低99.97%,Nvidia追求进步,建议生态系统优先部署下一代系统 [61][63] - 研究的H100租赁价格预测框架准确率达98%,结合多方面估计构建预测价格曲线 [64] CPO插入 - Nvidia宣布首款共封装光学(CPO)解决方案,部署在横向扩展交换机中,CPO降低功耗,可使网络扁平化一层,400k* GB200 NVL72部署从三层网络转两层网络可节省12%总集群功耗 [69][70] - 推出多款基于CPO的交换机,Quantum X - 800 3400的CPO版本2025年下半年推出,Spectrum - X交换机2026年下半年推出,长远看CPO可增加GPU扩展网络基数和聚合带宽 [73][75] 行业地位 - 尽管亚马逊Trainium芯片定价低,但Nvidia技术领先,新架构、机架结构、算法改进和CPO使其与竞争对手拉开差距,预计将继续领先 [76]
AI投资机会怎么看?外资机构发声
证券时报· 2025-03-13 13:07
AI推动新一轮资本开支增长 - 全球主要科技企业正在推动新一轮资本支出扩张,美国四大云服务和AI企业的资本开支总额预计将从2023年的1500亿美元增长至2024年的3000亿美元,实现翻倍 [3] - 半导体企业成为AI基础设施建设的重要受益方,英伟达数据中心相关收入预计从2023年的500亿美元增长至2024年的约1800亿美元,增长超过三倍 [3] - AI模型从预训练发展到训练后优化(如RLHF)将推动算力需求持续增长,对AI基础设施的需求维持高位 [4] 低成本革命开启中国资产重估 - DeepSeek发布的大型语言模型引发市场对中国科技企业估值逻辑的重塑,低推理成本与强大制造业供应链让中国在AI应用和物联网领域的推进速度有望超过美国 [6] - 中国在数据、研发和人才方面的优势推动DeepSeek成功,训练成本降低将加速AI技术落地并推动设备更新换代 [6] - 中国科技"七巨头"概念兴起,AI行情带动科技股新一轮价值重估,中国可能首次在全球技术革命中处于领先地位 [7] AI+产业链重塑未来投资方向 - 半导体、机器人、算力基础设施等方向将在AI革命与全球制造升级背景下迎来持续发展机遇 [9] - 半导体行业在医疗、航空航天、能源基础设施、机器人等新兴领域具有巨大增长空间 [9] - 中国在全球供应链中扮演关键角色,尤其在机器人领域从核心零部件到整机全产业链占据主导地位 [9] - AI技术将深入实体经济,带动智能制造、自动驾驶、物联网等多场景落地,中国企业有望在全球产业链中占据更高地位 [10] - 重点关注AI在具身智能、消费电子、智能驾驶等领域的应用,以及半导体硬件、云计算等基础设施和国产高端装备、芯片制造等自主可控领域 [10]
DeepSeek对英伟达长期股价的潜在影响
致富证券· 2025-03-12 14:38
报告行业投资评级 未提及 报告的核心观点 - DeepSeek在训练和推理成本上有显著优势,引发科技股大幅波动,短期内冲击英伟达股价,但长远看随着AI技术普及和商业化加速,英伟达芯片需求可能进一步增长,AI产业将迈向新阶段 [2][3][16] 根据相关目录分别进行总结 DeepSeek引发市场波动 - 1月27日,DeepSeek在中国区和美国区苹果App Store免费榜登顶,美国科技股市场大幅下跌,费城半导体指数下跌9.2%,英伟达股价下跌近17%,市值蒸发近6000亿美元,WTI原油价格盘中一度下跌3% [2] DeepSeek成本优势 - 训练成本方面,DeepSeek使用约2000张H800 GPU训练,V3模型训练成本不超过600万美元,预训练阶段每万亿Token训练用2048个H800 GPU集群,180K个GPU小时(约3.7天)完成,总耗时约2788K GPU小时 [5][6] - 推理成本方面,OpenAI的o1模型每百万输入和输出Token分别收费15美元和60美元,DeepSeek的R1模型相同输入和输出价格仅为OpenAI的3%,DeepSeek推理成本API报价每百万Token输入成本仅1元 [3][7] DeepSeek低成本训练实现方式 - DeepSeek团队创新训练策略,在监督微调环节优化,最初尝试跳过SFT步骤仅用强化学习训练,引入少量冷启动数据提升稳定性和推理能力,R1系列模型摒弃RLHF中的人类反馈部分 [9] - 为解决纯强化学习训练文本中英混杂问题,用数千条链式思考数据微调V3 - Base模型,再启动强化学习流程生成样本数据微调得到R1模型,降低成本同时提升推理和语言生成质量 [10] DeepSeek对AI产业影响 - 对依赖自研大模型构建商业模式的公司影响更显著,如引发Meta内部AI团队担忧,Meta成立小组分析其技术原理并计划用于Llama模型优化 [12] - 美国大型科技企业以保持技术领先为首要目标,虽可能借鉴DeepSeek方法优化成本,但不会作为核心战略,现阶段大语言模型发展需大量算力,未来其他机器学习模型也可能有巨大算力需求 [13] - 英伟达认为DeepSeek成果会增加市场对其芯片需求,依据杰文斯悖论,技术进步降低资源使用成本会使市场对资源总体需求上升 [14] - DeepSeek降低大语言模型开发门槛,促使更多中小型企业和个人训练私有模型,若引发推理需求“第二波”增长,增量需求将远超AI巨头减少的GPU采购量,且商业化后推理环节算力消耗更大 [15]
低点反弹30%+,拐点真的来了!
格隆汇APP· 2025-03-09 17:12
存储芯片行业现状与趋势 - 存储芯片板块自1月7日企稳反弹,累计涨幅超30% [1] - 企业级存储市场供不应求,消费级市场芯片价格处于跌势 [2] - 2024年四季度全球DRAM内存产业营收280亿美元,同比增长63.8%;NAND Flash市场规模174.1亿美元,同比增长42.4% [7] - 主流存储器价格自24年下半年开始下跌,消费类已下调超20%,企业级下调10-20% [10] AI驱动存储芯片需求 - 阿里宣布未来三年云和AI基建投入将超过去10年总和 [2] - AI服务器存储芯片价值量超10000美元,是通用服务器的2倍 [4] - HBM和SSD需求旺盛,HBM是高性能AI芯片刚需,SSD用于存储大量数据 [3] - 推理端需求增长将大幅促进AI芯片用量,遵循"杰文斯悖论"规律 [5] - SK海力士2025年HBM销售额计划翻倍,HBM占DRAM总营收比例已超四成 [5][12] 国产存储芯片进展 - 合肥长鑫DDR5芯片良品率达80%,HBM2取得进展,预计2025年中期小批量生产 [6] - 长江存储"晶栈架构"混合键合技术应用于3D NAND闪存,三星有望采用该技术 [7] - 国产AI芯片积极适配DeepSeek大模型应用,加强上下游协同 [5] - 国内存储模组厂商如江波龙、德明利、佰维存储等受涨价预期影响股价上涨 [14] 价格周期与厂商策略 - 存储芯片厂商通过减产、提价等措施自2023年第三季度起行情回升 [8] - 三星计划2025年将DDR4等传统产品销售占比缩减至个位数 [12] - 闪迪宣布4月1日起涨价超10%,预计后续季度还有额外涨幅 [13] - TrendForce预计2025年三季度NAND价格环比增长10%-15%,四季度增长8%-13% [15] 市场供需与预测 - 2025年一季度NAND Flash合约价预计环比下降10~15%,DRAM下降8~13% [12] - 企业级存储价格将保持稳定,消费类存储价格年中或迎来反弹 [15] - 厂商减产、去库存将加速供需关系走向平衡 [17] - AI硬件是长线故事,技术升级将带来机遇 [17]
喝点VC|Greylock解读DeepSeek-R1,掀起AI革命和重构经济秩序
Z Potentials· 2025-03-04 13:33
开源与闭源模型 - DeepSeek-R1 缩小了开源模型与闭源模型的差距 在关键推理基准测试中与 OpenAI 最新模型持平 尽管其规模更小 [2] - 开源模型在质量上已与最先进的闭源模型持平 标志着开源将模型层商品化的转折点 [2] - 开源模型的进步将推动 LLM 市场的竞争 企业将拥有多样化的实用选项 在计算能力、成本和性能之间进行权衡 [2][3] AI 基础设施与开发者使用 - DeepSeek-R1 利用强化学习(RL)提升推理能力 采用广义策略优化强化学习(GRPO)技术 是首个成功大规模实施并取得可测量增益的开源模型 [3] - 强化学习的突破被视为游戏规则的改变者 但当前 AI 工具尚未完全支持这一新范式 [3] - 开源模型的普及消除了“最大最好模型必须封闭”的护城河 企业可以完全掌控前沿模型 [4] 新应用与行业影响 - DeepSeek 增强的推理能力开启新应用浪潮 包括自主 AI 代理、专业规划系统和企业 AI 助手 [5] - 高度监管行业将受益于开源模型 因为企业可以完全控制数据的使用方式和发送目的地 [6] - 数据质量仍是关键优势 特定领域的标注和奖励函数对模型性能至关重要 [6] GenAI 经济学 - DeepSeek 降低了推理和训练成本 改变了 GenAI 部署的经济性 企业将更多地使用 AI 并部署多个特定领域模型 [7] - 开源模型的成本比使用 OpenAI 或 Anthropic 便宜多达 7 倍 解锁了更多经济上不可行的案例 [7] - 生成器的商品化趋势将推动标注技术的进步 包括 RLHF 和奖励函数等方法的优化 [8] 行业展望 - DeepSeek 标志着开源模型首次真正达到与专有替代品竞争的水平 开启了 AI 发展的新时代 [8] - 高质量、特定领域的数据和标注仍是 AI 未来的关键 尽管 DeepSeek 代表了有意义的进展 [8]
DeepSeek+风起,金融行业率先加速生产力落地
格隆汇APP· 2025-03-03 18:45
算力平权运动 - DeepSeek-V3以557.6万美元预训练成本追平硅谷巨头数亿美元研发的顶尖模型,标志"算力平权运动"开启 [1] - ASML首席执行官指出AI模型训练成本从数亿美元压缩至百万级将催生指数级市场扩容 [2] - 算法创新与开源生态协同瓦解算力垄断,技术民主化使创新成果流向中小企业与个人 [4] - 云厂商通过构建跨平台模型市场、优化调度算法等措施编织去中心化算力网络 [5] - 中国算力产业链重构,华为云昇腾AI集群将云计算基础设施价值提升至数字经济治理层面 [5] 火山引擎技术突破 - 火山引擎实现DeepSeek模型高度对齐官方,精度不打折,支持V3/R1等不同尺寸模型 [8] - 在AIME测试中成为唯一实现"满血可联网版"服务商,复杂多轮对话能力与原生模型无异 [9] - 推理延迟压降至30ms,目标稳定在15-30ms区间,API响应性能全面领先行业 [11] - 实现完整回复率100%,API可用性达99.83%,服务稳定性行业最优 [12] - 提供500万TPM限流阈值,支持每分钟1250次复杂推理请求,突破传统API吞吐限制 [14] 金融行业应用 - 已服务60余家金融机构包括国信证券、平安证券等,覆盖投研投顾、风控合规等场景 [15] - AI一体机提供私有化部署方案,搭载veStack统一底座保障金融数据安全 [17][18] - 全栈自研推理引擎深度优化算子层、调度层,缓解金融行业"算力饥渴症" [19] - 轻量化方案降低金融机构AI转型门槛,破解"创新桎梏"重塑行业竞争力 [19][20] 全栈AI生态构建 - 提供豆包大模型、HiAgent、扣子等全栈服务覆盖语言、图像、视频等多领域 [22][24] - 火山方舟平台提供模型训练、推理、评测全流程服务,支持第三方模型接入 [25] - 扣子平台独家支持DeepSeek工具调用,降低开发者门槛构建智能体生态 [25] - 形成从底层硬件到上层应用的完整AI生态链,推动行业智能化转型 [25][26]
DeepSeek的545%利润率,是对算力的核弹吗?
华尔街见闻· 2025-03-02 20:40
文章核心观点 - DeepSeek在开源周展示出高成本利润率,引发对其利润率解读、对算力产业链、云产业链、大模型同行及行业生态影响的讨论,揭示了infra优化潜力,推动行业变革,预示高效、低成本、竞争激烈的AI时代到来 [1][28] 如何解读这个利润率 - DeepSeek官方公布的545%利润率是特定条件下的理论计算,真实利润率没这么夸张 [6] - 科技博主180K解读,R1模型利润率约85%,按V3定价利润率降至70%左右,仍很可观 [7] - 通过对比Anthropic利润率可知,OpenAI和Anthropic虽成本控制不如DeepSeek,但凭借高定价和慷慨客户也能实现类似高利润率,OpenAI常被报道“亏损”是因融资时投资者关注财务会计盈亏 [7] 是否是对算力的核弹 - DeepSeek案例证明在硬件条件有限(使用H800)下,通过极致infra优化可实现高算力利用率和性能,对算力产业链影响大 [8] - 科技博主180K认为“有效算力”重要性将凸显,国产芯片上限有望提升 [8] - 科技博主信息平权认为“杰文斯悖论”生效,算力效率提升会刺激应用场景出现,推动算力需求增长,巴克莱银行预测到2026年业界资本支出可支撑“12000 + 个ChatGPT级别的应用” [9] - 短期内算力需求逻辑可能受质疑,海外大厂CIO或CFO可能面临解释ROI低于DeepSeek的压力 [10] - 知名投资人段永平赞同黄仁勋观点,认为DeepSeek创新不会减少算力需求,R1激发市场对高效AI模型追求,推动行业发展 [11][12] - 国外科技博主Zephyr认为DeepSeek已将英伟达“击倒”,其算力利用率满足全球AI需求绰绰有余 [13] 对云产业链意味着什么 - DeepSeek让AI云计算与传统云计算相似性更明显,面临“低峰期闲置率”和“高峰期稳定性”挑战 [3][19] - 科技博主180K认为云计算规模效应更显著,用户数量正外部性明显,云厂商竞争优势可能变化,有自身业务的云厂商更具成本优势 [19] - 云计算利润率有提升空间,私有云部署吸引力可能下降,普通云计算/AI应用需为高强度用户并发预留更多空间,利润率可能下降 [20] 对大模型同行意味着什么 - DeepSeek开源和技术披露为行业树立新标杆,推理成本“底线”被大幅拉低,可能引发新一轮价格战,同行面临降价压力 [4][21] - DeepSeek为推理团队提供优化路径和目标,后续压力加大,OpenAI高价订阅模式面临挑战 [22][23] 对生态意味着什么 - DeepSeek专注基础模型和前沿创新,通过开源技术吸引业界构建to B和to C业务,形成完整产业上下游 [5][24] - 科技博主极客公园表示生态合作伙伴盈利空间增大 [25] - 后续模型架构差异化可能成竞争关键,DeepSeek开源降低社区复现推理系统难度,利于生态繁荣 [26][27] - 科技博主180K表示行业可能开始卷Infra,Infra重要性和估值提高 [28]
戴尔第四季度预览:推理 AI 助阵 ,现在是买入好时机吗?
美股研究社· 2025-02-27 18:41
戴尔股价落后原因 - 自11月以来股价落后市场 主要因市场担忧AI数据中心建设放缓 尤其微软资本支出战略变化传闻影响[1] - 市场担忧Blackwell支持的预训练集群效率提升 而AI模型过去三个月未呈指数增长 导致GPU需求增速放缓[1] AI计算范式转变 - 行业正从预训练为中心转向推理计算为中心 后者扩展性更优且成本更低[2] - 推理AI指模型产生预测的过程 相比预训练更快更便宜 预训练则更深入彻底[3] - 未来数据中心将更多采用"推理本田"模式(小型低成本)而非"预训练法拉利"(大型高成本)[3] 戴尔战略合作与技术优势 - 与AMD达成协议 Ryzen AI PRO处理器将为戴尔设备提供实时字幕 语言翻译及更高安全性[4] - AMD CEO指出其MI300X GPU在推理计算TCO上显著优于Nvidia H100 戴尔可通过替代方案降低系统成本[4] - 摩根士丹利数据证实AMD的TCO远低于Nvidia 戴尔将受益于此技术路线[4] 财务表现与预期 - Q4财报预期EPS 2 52美元(同比+14 46%) 收入245 7亿美元(同比+10 09%) 分析师预测区间狭窄显示共识强[5] - 过去三个月EPS预测20次修正中18次下调 收入16次修正中15次下调 但分析师认为存在上行惊喜空间[6][7] 重大商业合作 - 即将与xAI签署50亿美元协议 显著提升AI服务器业务规模[8] - 预计2024-2025财年AI服务器出货量增加40亿美元[9] 估值与增长潜力 - 非GAAP预期市盈率14 5 较行业中值23 87折价39 26% 量化评级A-[9] - 预期市销率0 83 较行业中值3 11低73 43% 量化评级A[9] - 若市盈率回归行业中值 股价潜在涨幅达64 6%[9] 行业趋势支撑逻辑 - 杰文斯悖论显示AI代币使用成本下降将刺激总需求增长 推理计算市场扩张利好戴尔[10] - AI模型工具价值提升推动消费需求 转向低成本推理GPU集群趋势与戴尔战略契合[10] - 与AMD xAI的合作将直接推动销售增长 叠加行业转型形成双重催化剂[11]
微软CEO纳德拉最新访谈:开源是对赢者通吃的最大制约
IPO早知道· 2025-02-25 10:39
微软量子计算突破 - 微软发布全球首款拓扑量子芯片Majorana 1,采用半导体砷化铟和超导体铝材料,基于全新"拓扑"物质状态构建[3][4] - 该芯片历时近20年研发,目标在2030年前上市并实现百万量子比特规模,被视为量子计算的"晶体管时刻"[3][15][16] - 技术突破在于验证了马约拉纳零能模在新物相中的存在,使量子信息可被可靠隐藏和测量[15][16] 量子计算战略布局 - 微软采用软硬件分离策略,同时与中性原子、离子阱团队合作开发多种量子计算机类型[17] - 计划2027-2029年推出容错量子计算机,预计可容纳百万物理量子比特和数千逻辑量子比特[17] - 量子计算将专注于化学物理、生物学等非数据密集型但需探索指数级状态空间的领域[17][18] AI与量子计算协同 - AI可作为"模拟器的模拟器",量子计算则作为"自然模拟器",两者结合可生成合成数据训练更优模型[18] - 量子计算不会取代经典计算,但能增强高性能计算能力,尤其在材料科学等领域的模拟应用[17][18] AI市场格局判断 - 超大规模云服务(如Azure)和模型层将共存,但AI市场不会形成赢者通吃格局,企业客户会要求多供应商并存[7][8] - 开源模型将制约闭源垄断,政府监管也将介入防止私营公司主导AI领域[7] 计算基础设施需求 - AI工作负载(如ChatGPT)推动计算需求指数级增长,训练和推理阶段均需大规模计算集群[6][9] - 全球分布式计算集群成为刚需,需就近部署存储与计算资源以突破"光速限制"[9] AGI经济影响标准 - AGI实现的真正标志是全球经济增长率达到10%(当前发达国家平均2%),而非技术基准炒作[10][20] - 若实现10%增长,全球年新增价值将达10万亿美元(基于100万亿美元全球经济规模)[10] 智能成本与普及 - 遵循"杰文斯悖论",智能成本下降将刺激需求弹性,尤其在发展中国家医疗等领域的应用[14] - 智能需同时提升能力并降低成本,类似云计算通过弹性付费模式扩展市场的历史路径[14] 技术投资方法论 - 公司选择进入TAM(潜在市场总量)大且能容纳多个赢家的赛道,避免押注赢者通吃领域[8] - 研发需平衡短期需求与长期相关性,保持对失败的高容忍度以探索未来技术[23] 认知劳动演变 - 当前认知劳动可能被自动化,但会催生更高层次的认知任务,形成动态平衡而非完全替代[23][24] - AI工具应作为人类认知增强器,例如开发具备长期记忆的会议协调代理提升决策效率[25] 材料科学革命愿景 - 量子计算+AI有望加速新材料研发,目标在25年内实现传统需250年完成的工业革命级突破[25]