推理

搜索文档
喝点VC|a16z关于DeepSeek的内部复盘:推理模型革新与20倍算力挑战下的AI模型新格局
Z Potentials· 2025-03-23 13:10
图片来源: a16z Z Highlights 在这段访谈中 a16z 合伙人 Guido Appenzeller 和 Marco Mascorro 一同揭开了 DeepSeek 的工作原理,并解释了推理模型时代对人工智能的意义。 开源透明,点燃推理革命 Guido Appenzeller: 大家好,今天我们将深入探讨 DeepSeek ,这个来自中国的全新高性能推理模型。 DeepSeek 在上个月引起了广泛关注,它在排行榜上 名列前茅,但也引发了一些担忧和困惑。 Marco Mascorro: 是的,这不太理想。 Guido Appenzeller: DeepSeek 的优点在于,他们开源了模型权重、技术细节以及构建这些模型的方法。这为我们理解推理模型的工作原理提供了宝贵的观 点,而且展望未来,几乎所有最先进的模型都将采用其中的一些技术。我们已经从 OpenAI 和 Google 的模型中看到了类似的结构,这对我们所需的计算 量、推理和训练所需的 GPU 算力都有着重大影响。这是我们对 DeepSeek 的分析,包括他们一直在构建的一些模型,如 DeepSeek Math, V3 和 V2 ,以及 现在的 ...
【电子】英伟达GTC2025发布新一代GPU,推动全球AI基础设施建设——光大证券科技行业跟踪报告之五(刘凯/王之含)
光大证券研究· 2025-03-22 22:46
英伟达GTC大会核心观点 - 提出Agentic AI作为AI技术发展的中间态 按照"Generative AI Agentic AI Physical AI"三阶段进化路线推进 [3] - 全球数据中心建设投资额预计2028年达到1万亿美元 Scaling Law发展需要更大规模算力资源投入 [3] 芯片产品规划 - Blackwell Ultra芯片2025年下半年供货 基于Blackwell架构 AI推理性能显著提升 [4] - GB300 NVL72机架级解决方案AI性能比GB200 NVL72提升1.5倍 已全面投产 [4] - Vera Rubin系列芯片为下一代AI平台 预计2026年下半年推出Vera Rubin 2027年下半年推出Vera Rubin Ultra [4] 光通信技术突破 - 推出115.2T的800G Quantum-x CPO交换机 采用微环调制器1.6T硅光CPO芯片 预计2025下半年上市 [5] - 基于CPO共封装光学平台打造Spectrum-x系列光交换机 包括128端口800G和512端口800G型号 [5] 软件与生态系统 - 推出AI推理服务软件Dynamo 支持Blackwell芯片实现推理性能飞跃 [6] - 发布NIM服务支持企业构建AI Agent 推出AI-Q(NVIDIA IQ Blueprint)框架 [6] - 推出DGX Spark个人AI超级计算机和GR00T N1人形机器人模型框架 [6] 大会规模与内容 - 包含1000多场会议 400多项展示和技术实战培训活动 [2] - 聚焦代理式AI 机器人 加速计算等前沿领域发展 [2]
英伟达的新款 Blackwell Ultra 和 Rubin 芯片如何引领下一波 AI 浪潮
美股研究社· 2025-03-21 18:48
英伟达新芯片发布 - Blackwell Ultra芯片内存带宽从192GB增至288GB,性能提升1.5倍,适合处理更大AI模型和深度学习应用[1] - Rubin芯片将于2026年发布,采用基于Tile的设计,可容纳四个Tile,支持混合搭配不同类型芯片[2] - Rubin芯片AI推理速度预计达每秒50千万亿次浮点运算,比Blackwell高2.5倍,2027年目标实现每秒100千万亿次浮点运算和1兆字节内存[3] 性能提升与市场影响 - Blackwell Ultra的HGX系统声称AI推理速度比上一代快11倍,吞吐量高7倍[5] - 新芯片使英伟达占据AI加速器市场主导地位,支持约90%数据中心工作负载[5] - 每次Blackwell Ultra部署收入可能比上一代高50倍[10] 竞争格局 - 谷歌开发TPU,亚马逊推出Trainium和Inferentia芯片,主要针对自身生态系统优化[7] - AMD推出Instinct MI300X作为更便宜替代品,已被微软和Meta集成到数据中心[7] - 竞争对手芯片主要针对特定工作负载,尚未直接挑战英伟达市场地位[9] 商业模式转变 - 从硬件公司转变为硬件和软件关键接口,提供Dynamo推理网络框架等软件[6][10] - 毛利率达73-75%,在AI数据中心万亿美元发展空间中处于核心位置[13] - 新芯片降低竞争对手吸引力,但行业长期趋势仍向定制芯片发展[14] 投资价值 - 股价下跌被视为非理性,AI长期投资逻辑未改变[12][13] - 护城河持续扩大,在AI军备竞赛中保持领先地位[16] - 忽视长尾市场可能错失机会,但未来可解决[14]
英伟达芯片路线图迅猛,客户不买单?
半导体芯闻· 2025-03-21 18:40
来源:内容编译自wsj,谢谢。 在本周二的 Nvidia GTC 大会上,黄仁勋发表了长达两小时的主题演讲。他在演讲中表示,公司 当前最先进的 AI 系统"Blackwell"将于今年晚些时候推出一个升级版本,命名为 Ultra。此外,他 还 发 布 了 一 个 性 能 更 强 的 新 一 代 系 统 系 列 , 命 名 为 Rubin , 预 计 将 在 2026 年 下 半 年 上 市 。 而 Rubin 的 Ultra 版本,其性能将是当前 Blackwell 的 14 倍。 如果您希望可以时常见面,欢迎标星收藏哦~ 英伟达的产品持续热销 英伟达的 GPU 和相关基础设施目前在训练前沿 AI 模型方面需求旺盛。凭借这些技术以及其他产 品,英伟达的市值现已超过 2.8 万亿美元,成为全球最有价值的公司之一——尽管不再是全球市 值最高的那一个。 传统计算主要是"检索信息",但现在越来越多人认为:2025年将是计算进入"推理时代"的转折 点,而这需要大大增强的算力。 黄仁勋指出:"我们现在需要的计算能力,是我们一年前预期的 100 倍。"——这也是他近几个月 反复强调的观点。 因此,他表示,Blackwell ...
黄仁勋:对DeepSeek R1的理解完全错误,这类模型需要更多算力支持
华尔街见闻· 2025-03-20 12:52
文章核心观点 英伟达CEO黄仁勋缓解投资者因DeepSeek以超高性价比模型异军突起产生的算力需求担忧,强调计算需求仍高,DeepSeek不会冲击英伟达,且英伟达正推进生产转移至美国 [1][3][4][5] 分组1:黄仁勋对算力需求的观点 - 对DeepSeek推理模型R1的担忧是错误的,未来此类软件需更少芯片和更强大服务器,计算需求仍极其高,新型AI模型会增加对计算基础设施的需求 [1] - R1模型对算力需求高得多,计算需求非但没减弱还在迅猛增长 [2] - 全球所需AI算力比去年此时认为的要多100倍,推理型AI需要很高算力,推理是耗费计算资源的过程,像DeepSeek这样的模型可能需比传统模型多100倍的计算能力,未来推理模型需求更高 [3] 分组2:DeepSeek对英伟达的影响 - DeepSeek点燃全球热情对英伟达是好消息,R1发布未削弱其市场地位,反而推动全球对AI的热情 [4] - 市场担心DeepSeek式软件优化和硬件进步节省成本会致AI硬件需求下降,但英伟达推理效率提升使部署成本降低,消费量会增加 [4] 分组3:英伟达生产布局 - 特朗普政府关税短期内影响不大,英伟达一直在与台积电合作让其为在美国生产芯片做准备,还有富士康和纬创等合作伙伴,合力将制造业转移到美国,长期内在美国制造很可能实现 [4] - 英伟达正通过台积电位于美国亚利桑那州的工厂生产芯片,长期内将把生产转移到美国 [5]
软银收购Ampere Computing
半导体行业观察· 2025-03-20 09:19
软银收购Ampere Computing - 软银同意以65亿美元收购硅谷芯片初创公司Ampere Computing,旨在强化数据中心技术布局[1] - 收购反映软银对Ampere芯片在人工智能领域潜力的看好,认为其可挑战英伟达的领先地位[1] - Ampere成立于8年前,专注于基于Arm技术的数据中心芯片,软银2016年已收购Arm并推动其技术多元化应用[1] - 软银将Ampere作为全资子公司运营,孙正义强调Ampere的高性能计算能力将加速AI愿景实现[1] 行业背景与市场动态 - 交易背景是市场对AI芯片(如支持ChatGPT的芯片)需求激增,软银近期通过多笔交易加码AI领域[2] - "星际之门"计划由软银、OpenAI、甲骨文联合发起,拟投资5000亿美元建设数据中心,英伟达为关键技术伙伴[2] - 数据中心芯片市场中,每售出4块英伟达GPU需搭配1块英特尔/AMD微处理器,后者目前主导AI推理任务[3] - IDC预测AI微处理器市场规模将从2025年125亿美元增至2030年330亿美元[3] 技术竞争与合作伙伴 - 英伟达正推广Arm处理器替代英特尔/AMD芯片,但后者认为软件适配难度高且英伟达未完全放弃原有技术路线[4] - Ampere近期推出专为AI推理设计的Aurora芯片,含512个计算引擎,但面临亚马逊、谷歌等巨头自研Arm芯片的竞争[4] - 甲骨文是Ampere主要支持者,持有29%股份(价值15亿美元),提供基于Ampere芯片的在线服务[4] - 凯雷集团和甲骨文将在收购中出售所持Ampere股份[5] 交易进展 - 彭博社此前报道软银接近达成收购Ampere协议[6]
解读英伟达的最新GPU路线图
半导体行业观察· 2025-03-20 09:19
高科技公司路线图的重要性 - 高科技公司通常拥有技术路线图以向关键投资者和客户展示未来技术发展路径 [1] - 路线图可降低技术规划和采用风险 尤其在芯片制造难度加大的市场环境中 [1] - 部分公司如Oracle、Nvidia和AMD曾通过公开路线图展示技术迭代计划 [2] Nvidia的技术路线图战略 - Nvidia通过公开路线图向超大规规模客户展示其持续领先的技术开发能力 [2] - 路线图涵盖GPU、CPU、纵向扩展网络和横向扩展网络等多领域技术 [3] - 公司未将Quantum系列InfiniBand交换机纳入路线图 因AI领域更倾向以太网解决方案 [4] Blackwell系列GPU技术细节 - Blackwell B100/B200 GPU实际发布于2023年 而非路线图标注的2024年 [5] - B300 GPU内存容量提升50%至288GB FP4性能提升50%达15千万亿次浮点运算 [7] - GB300 NVL72系统FP4推理性能达1100 petaflops FP8训练性能360 petaflops 计划2025年下半年上市 [7] ConnectX系列网络技术进展 - ConnectX-8 SmartNIC速度达800Gb/秒 是前代ConnectX-7的两倍 计划2024年推出 [8] - 2028年将推出ConnectX-10 NIC 速度进一步提升至3.2Tb/秒 [18] Vera Rubin架构创新 - 2026年推出的Vera CV100 Arm处理器采用88核设计 支持同步多线程至176线程 [8] - NVLink C2C带宽翻倍至1.8TB/秒 与Blackwell GPU的NVLink 5匹配 [8] - Rubin R100 GPU配备288GB HBM4内存 带宽提升62.5%至13TB/秒 [9][10] 机架级系统性能飞跃 - VR300 NVL144系统FP4性能达50千万亿次浮点运算 是GB200系统的5倍 [13] - 2027年Rubin Ultra GPU将集成4个芯片于单插槽 FP4性能100 petaflops 配备1TB HBM4E内存 [14] - VR300 NVL576系统采用Kyber液冷机架设计 推理性能达15百亿亿次浮点运算 是当前系统的21倍 [16][17] 未来技术规划 - 2028年"费曼"GPU将搭配Vera CPU和3.2Tb/秒ConnectX-10 NIC [18] - 路线图显示Nvidia将持续提升NVSwitch带宽 2028年达7.2TB/秒 [18] - 公司通过系统级创新保持AI计算领域的技术领先地位 [19]
深度解读黄仁勋GTC演讲:全方位“为推理优化”,“买越多、省越多”,英伟达才是最便宜!
硬AI· 2025-03-19 14:03
英伟达GTC 2025技术创新与行业影响 核心观点 - 英伟达通过推理Token扩展、推理堆栈与Dynamo技术、共封装光学(CPO)等创新显著降低AI总拥有成本,巩固其在全球AI生态系统的领先地位 [2][5] - 三条扩展定律(预训练、后训练、推理时)协同作用推动AI模型能力持续提升 [8][10] - 硬件性能提升与成本下降形成"杰文斯悖论"效应:成本降低刺激需求增长而非抑制 [10][12] 推理Token扩展 - 现有模型Token数超100万亿,推理模型Token量达20倍,计算量高出150倍 [12] - 测试阶段需数十万Token/查询,每月数亿次查询;后训练阶段单个模型需处理数万亿Token [13] - 代理能力AI推动多模型协同工作,解决复杂问题 [13] 黄仁勋数学规则 - 第一条规则:FLOPs数据以2:4稀疏度计,实际密集性能为公布值的2倍(如H100 FP16密集性能1979.81 TFLOPs) [15] - 第二条规则:带宽按双向计量(如NVLink5报1.8TB/s=900GB/s发送+900GB/s接收) [16] - 第三条规则:GPU数量按封装中芯片数计(如NVL144含72个封装×2芯片) [16] GPU与系统路线图 Blackwell Ultra B300 - FP4 FLOPs密度较B200提升超50%,内存容量升至288GB/封装(8×12-Hi HBM3E),带宽维持8TB/s [20] - 采用CoWoS-L封装技术,16个GPU封装组成B300 NVL16系统 [21][22] - 引入CX-8 NIC(800G吞吐量),比CX-7提升一倍 [22] Rubin系列 - 采用台积电3nm工艺,50 PFLOPs密集FP4性能(较B300提升3倍) [25][26] - 关键改进:I/O芯片释放20%-30%面积、1800W TDP、128×128张量核systolic array [27][28] - HBM4容量288GB(8×12-Hi),带宽13TB/s(总线2048位,6.5Gbps针速) [32] Rubin Ultra - 性能翻倍至100 PFLOPs密集FP4,HBM4E容量1024GB(16×16层32Gb DRAM) [36] - 系统总高速存储365TB,Vera CPU配1.2TB LPDDR [37] - 采用Kyber机架架构,NVL576配置含144封装×4芯片=576计算芯片 [39][44] 推理堆栈与Dynamo技术 - Smart Router实现多GPU负载均衡,避免预加载/解码阶段瓶颈 [56][58] - GPU Planner动态调整资源分配,支持MoE模型负载均衡 [59][60] - NCCL小消息传输延迟降低4倍,NIXL引擎实现GPU-NIC直连(免CPU中转) [61][62] - NVMe KV-Cache卸载管理器提升56.3%缓存命中率,释放预加载节点容量 [65] CPO技术突破 - 功耗显著降低:400k GB200 NVL72集群总功耗节省12%,收发器功耗占比从10%降至1% [75] - 网络扁平化:三层→两层拓扑,Quantum X-800 CPO交换机提供144×800G端口 [76] - 长期潜力:提升GPU扩展网络基数,支持超576 GPU的规模化部署 [77] 成本效益与行业地位 - Blackwell较Hopper性能提升68倍,成本降87%;Rubin预计性能提升900倍,成本降99.97% [69] - 技术迭代速度使竞争对手难以追赶,形成平台优势 [79][80] - CPO、机架设计等创新持续扩大与竞争对手差距 [78][79]
不止芯片!英伟达,重磅发布!现场人山人海,黄仁勋最新发声
21世纪经济报道· 2025-03-19 11:45
文章核心观点 英伟达GTC2025大会围绕AI推理时代展开,发布了涵盖计算架构、企业AI应用、数据中心、机器人和自动驾驶等领域的技术,构建完整AI生态体系,有望推动企业和个人生产力变革,虽发布会后股价下跌,但大会或提振AI市场部分正面情绪 [28][30] 分组1:大会概况 - 当地时间3月18日,英伟达创始人兼CEO黄仁勋在英伟达GTC2025大会发表演讲,称其为“AI界的超级碗”,今年关键词是“推理”和“token”,AI叙事重心从训练转向推理 [1] - Forrester副总裁兼首席分析师戴鲲认为大会有三个方向值得关注,分别是面向后训练和推理的加速计算、面向企业级智能代理开发的Agentic AI、AI在物理世界中的应用 [3] 分组2:芯片家族 - 英伟达发布Blackwell Ultra系列芯片及下一代GPU架构Rubin,Vera Rubin NLV144计划于2026年下半年上线,Rubin Ultra NVL576将于2027年下半年面世 [5] - Grace Blackwell已全面投入生产,新平台强化推理能力,Blackwell Ultra在训练和测试时间缩放推理方面实现突破,被称为“AI工厂平台” [6] - Blackwell Ultra(GB300)包含GB300 NVL72机架级解决方案和HGX B300 NVL16系统,GB300 NVL72 AI性能提升1.5倍,使AI工厂收益机会相比Hopper平台提高50倍;HGX B300 NVL16推理速度提高11倍、计算能力提升7倍、内存容量扩大4倍 [8][9] - 瑞银报告指出,Blackwell系列需求强劲,GB200瓶颈解决,英伟达加快B300/GB300推出,预计第一季度提前量产,2025年第三季度大规模出货 [10] - 基于Blackwell Ultra的产品预计2025年下半年由合作伙伴推出,思科、戴尔等将率先推出相关服务器,预计到2028年数据中心投资超一万亿美元,暗示英伟达有增长空间 [11] 分组3:CPO交换机 - 英伟达推出全新NVIDIA Photonics硅光子技术,通过共封装光学取代传统可插拔光学收发器,可降低40MW功耗,提高AI计算集群网络传输效率 [13] - 推出Spectrum-X与Quantum-X硅光子网络交换机,Spectrum-X以太网平台带宽密度达传统以太网1.6倍,Quantum-X光子Infiniband平台AI计算架构速度较前代提升2倍,可扩展性增强5倍 [14] - 英伟达光子交换机集成光通信创新技术,较传统方式减少75%激光器使用,能效提升3.5倍等;摩根大通报告指出CPO应用于GPU最早可能2027年实现,且面临多项技术挑战,对基板供应商是利好 [15] 分组4:软件升级 - 英伟达关注机器人、自动驾驶等领域,生成式AI改变计算方式,计算机成为token生成器,数据中心演变成AI工厂 [17] - 英伟达新推出AI推理服务软件Dynamo,支持下Blackwell推理性能可达上一代Hopper的40倍,能最大化AI工厂token收益,采用分离式推理架构实现高效AI推理计算 [18][19] - 英伟达推出Llama Nemotron系列推理模型和AI - Q,支持企业和开发者构建AI Agent,提升推理能力,减少开发成本和部署难度 [20] - 英伟达核心护城河CUDA是强大软硬件体系,已拥有各领域AI工具 [21] 分组5:端侧AI和机器人 - 英伟达推出基于NVIDIA Grace Blackwell平台的全新DGX个人AI超级计算机系列,包括DGX Spark和DGX Station,将原本仅限数据中心使用的架构性能引入桌面环境 [23][24] - 英伟达正式发布全球首款开源、可定制的通用人形机器人基础模型Isaac Groot(GROOT N1),采用双系统架构,可适配多种任务,已被多家机器人制造商采用 [25] - 英伟达推出一系列模拟框架和方案,在机器人基础模型和体系化解决方案上再次升级,摩根大通预计其在Physical AI方面会有更多突破 [26] 分组6:市场情绪 - 过去一季度AI领域变化大,英伟达GTC2025大会发布众多技术,但发布会结束后股价下跌3.43% [28] - 摩根大通报告指出整体AI市场情绪偏空,GTC大会有望提振部分正面情绪,改善Blackwell系统供应状况,预计2026年AI数据中心资本支出继续健康增长 [29]
老黄发布新核弹B300,英伟达:B200已破DeepSeek-R1推理世界纪录
量子位· 2025-03-19 06:20
文章核心观点 英伟达在GTC大会上发布多款新硬件、软件,涉足以太网领域,还在自动驾驶和具身智能方面取得新进展,同时大会设有“量子日”活动引发关注 [1][18][29][43][56] 新硬件发布 AI芯片 - GB300推理性能是GB200的1.5倍,将于今年下半年出货 [1][2] - 预览下一代AI超级芯片Vera Rubin,2026年下半年发货,整体性能是GB300的3.3倍 [3][6] - 2027年下半年推出的Rubin Ultra性能是GB300的14倍 [6] - 之后的下一代GPU将命名为Feynman [11] 个人AI超级计算机 - DGX Spark售价3000美元,采用GB10芯片,能提供每秒1000万亿次AI运算,官网已开启预定 [20][21][23] - DGX Station采用GB300芯片,将于今年晚些时候从多家厂商推出 [24][26] 以太网网络平台 - 推出全球首个面向AI的以太网网络平台Spectrum - X,可将AI网络性能提升1.6倍 [29][31] - 推出基于硅光学的Spectrum - X Photonics和Quantum - X Photonics网络交换平台,端口数据传输速度提至1.6Tb/s,总传输速度达400Tb/s [32][33] 软件开源 分布式推理服务库 - 发布NVIDIA Dyamo,可让DeepSeek - R1吞吐量提升30倍,已完全开源 [35][37][38] AI推理模型 - 开源新的AI推理模型Llama Nemotron,49B参数量性能远超其他对比模型 [39][41] 自动驾驶与具身智能进展 自动驾驶 - 与通用汽车合作,通用将在自动驾驶上使用英伟达AI技术 [44] - 发布端到端自动驾驶汽车全栈综合安全系统NVIDIA Halos,在三个层面提供支持 [45][47] 具身智能 - 与Google DeepMind和Disney Research合作开发下一代开源仿真物理模型Newton [50] - 推出全球首个开源的、完全可定制的人形机器人基础模型Isaac GR00T N1 [51] 大会其他亮点 - 今年GTC大会首次设立“量子日”活动,老黄将与多家量子计算企业高管讨论行业发展 [56]