Workflow
NVIDIA Dynamo
icon
搜索文档
英伟达祭出下一代GPU,狂飙百万token巨兽,投1亿爆赚50亿
36氪· 2025-09-11 10:45
产品发布与定位 - 英伟达发布专为海量上下文AI设计的CUDA GPU Rubin CPX 实现百万Token级一次性推理 [1][3] - Rubin CPX开创全新处理器类别CPX 基于Rubin架构构建 为首款针对大规模上下文推理的专用GPU [1][3][4] 性能表现 - 单机架提供8 EFLOPS NVFP4计算力 配备100TB高速内存与1.7 PB/s内存带宽 [3][16] - 相比GB300 NVL72系统 注意力机制处理能力提升3倍 [3][19] - 单个GPU提供30 petaflops NVFP4计算能力 配备128GB GDDR7显存 [3][18] - Vera Rubin NVL144平台性能达GB300 NVL72系统的7.5倍 [3] 技术架构创新 - 采用解耦式推理架构 将上下文阶段(计算受限)与生成阶段(内存带宽受限)独立处理 [5][6] - 依托NVIDIA Dynamo作为编排层 协调低时延KV缓存传输与大模型感知路由 [8] - 与Vera CPU及Rubin GPU协同 形成完整高性能解耦式服务方案 [4][12] 应用场景突破 - 支持多步推理、持久化记忆与长时程上下文 适用于软件开发、视频生成及深度研究领域 [4] - 显著提升AI编码能力 从代码生成升级为可优化大规模软件项目的复杂系统 [4] - 满足长视频与研究类应用在百万Token级别保持一致性与记忆的需求 [4][17] 投资回报与经济性 - 每投入1亿美元最高可带来50亿美元Token收入 [3] - 规模化场景下可实现30-50倍投资回报率(ROI) [12] 平台配置与部署 - Vera Rubin NVL144 CPX平台集成144块Rubin CPX GPU、144块Rubin GPU及36颗Vera CPU [16] - 支持多种形态配置 包括与Quantum-X800 InfiniBand或Spectrum-X以太网平台结合使用 [20] - 基于MGX架构实现机架级部署 [15] 生态支持与可用性 - 获得完整NVIDIA AI全栈支持 包括AI Enterprise软件平台与NIM微服务 [21][24] - 兼容NVIDIA Nemotron多模态模型家族 依托600万开发者社区及近6000个CUDA应用 [24] - 产品预计2026年底上市 [22]
从漂泊少年到AI帝国掌舵者,黄仁勋为何能铸造英伟达传奇?
36氪· 2025-07-21 19:49
公司发展历程 - 英伟达市值从2021年的1万亿美元增长至2025年的4万亿美元,四年间增长超3倍,成为全球首家达到4万亿美元市值的上市公司[1] - 1993年公司成立初期承接技术外包项目维持运营,并将利润投入自主芯片研发,首款产品NV1因技术路线与市场不兼容导致销售惨淡,公司一度濒临倒闭[14] - 1997年推出RIVA 128芯片实现盈利,1999年上市后市值暴涨至30亿美元,同年推出GeForce256并首次定义GPU品类[15] - 2006年推出CUDA架构将GPU转变为通用计算平台,初期市场反应冷淡但2012年后成为AI训练核心工具[18] - 2025年市值突破4万亿美元,占据全球AI芯片市场近90%份额,数据中心与自动驾驶业务全面发展[21] 技术突破与产品迭代 - 1998年起实施每6个月性能翻倍的迭代策略,速度达行业平均两倍[15] - 2017年CUDA年下载量达270万次,公司利润增长3倍至30亿美元[20] - A100芯片支持Multi-instance GPU技术,可划分为7个独立实例优化计算效率[20] - H100芯片采用Hopper架构,混合专家模型训练速度较前代提升9倍,支持256芯片互连[20] - 2025年推出NVIDIA Dynamo框架,在GB200 NVL72集群上运行DeepSeek-R1模型时单GPU生成token数量提升30倍[21] 市场战略与竞争 - 早期通过差异化战略避开CPU同质化竞争,专注图形处理细分场景[10] - 2000年对竞争对手3dfx发起专利诉讼并最终收购其资产[17] - 2002年GeForceFX因散热问题导致股价暴跌90%,公司通过降价策略维持市场份额[17] - 2013年起向OpenAI、斯坦福等机构赠送DGX-1超级计算机构建AI生态[18] - 2025年推出专为中国市场定制的H20芯片和RTX Pro系列显卡[28] 中国市场布局 - 2025年公司创始人三次访华,出席中国区年会、贸促会会谈及链博会[27] - 链博会上宣布美国政府批准向中国销售H20芯片,强调中国供应链价值与AI开源重要性[27] - 认为中国拥有全球最大的AI研究人员群体和终端消费市场,市场活力与创新速度独一无二[29] - 呼吁美国政府放宽技术出口限制以保障研发投入可持续性[29] 行业趋势判断 - 提出物理AI将成为下一波技术浪潮,推动AI从认知智能向行动智能演进[23] - 强调生成式AI的"理解-推理-生成"能力将作为物理AI的底层逻辑[24] - 指出AI正在重塑供应链模式,成为新型基础设施[27]
Nebius Stock Soars 57% in a Month: Time to Hold or Book Profits?
ZACKS· 2025-06-05 21:51
股价表现 - 过去一个月Nebius Group NV(NBIS)股价上涨57.3%,远超Zacks计算机与科技板块(10.1%)和互联网软件服务行业(10.6%)的涨幅,同期标普500指数仅上涨6.3% [1] - 自6月2日宣布10亿美元可转债私募发行后,股价已上涨9.4%,资金将用于扩大全球AI基础设施布局并提升2026年收入机会 [4] - 当前股价39.39美元,仍较52周高点低22.6% [5] 财务表现 - 2025年第一季度收入同比增长385%,年化收入(ARR)激增700%,4月ARR达3.1亿美元 [6] - 重申2025年ARR指引7.5-10亿美元,全年收入指引5-7亿美元 [7] - 2025年调整后EBITDA预计仍为负值,但管理层预计下半年将转正 [18] 技术升级与合作伙伴 - 第一季度对Slurm集群进行重大升级,节点商用可用性提升5%,新增自动故障恢复和系统健康检查功能 [9][10] - 强化对象存储能力,MLflow和JupyterLab Notebook等平台服务结束测试阶段 [11] - 深化与英伟达合作,将成为首批提供Blackwell Ultra AI工厂平台的云服务商,并支持DGX Cloud Lepton市场 [13] 全球扩张与业务多元化 - 新增美国、欧洲和中东三地数据中心,包括以色列战略节点 [14] - 旗下Toloka获亚马逊贝索斯和Shopify投资,自动驾驶平台Avride与优步、现代等达成合作 [16] - 持有ClickHouse 28%股权,当前估值约60亿美元 [16] 行业竞争与资本支出 - 面临亚马逊AWS和微软Azure的激烈竞争,两者合计占据超半数云基础设施市场份额 [17] - 2025年资本支出预算从15亿美元上调至20亿美元,主要因部分Q4支出提前至Q1 [18] - 过去60天内分析师普遍下调盈利预期,Q1/Q2每股亏损预期分别恶化9.76%/14.71% [19][20] 估值水平 - Zacks价值评分F显示估值过高,市净率2.94倍低于行业平均4倍但风险大于机会 [20][21]
英伟达发布一季度财报,华为尊界S800全球首发
国投证券· 2025-06-02 21:32
报告行业投资评级 - 领先大市,维持评级 [7] 报告的核心观点 - 英伟达一季度财报表现良好,营收和净利润同比增长,新财年Q2营收有预期但受出口限制有损失,2026财年第一季度Blackwell芯片全面投产 [1] - 华为尊界S800全球首发,加入多种技术,瞄准豪华车市场制高点,向国际豪华车市场发起挑战 [3] - 电子行业本周涨幅1.29%,不同子版块PE和PE百分位有差异,投资建议关注英伟达产业链、存储产业、消费电子/AI终端产业链相关公司 [4][11] 根据相关目录分别进行总结 本周新闻一览 - 半导体领域,长飞先进半导体申请专利可提高半导体器件迁移率,国际团队合成二维混合材料石墨烯可用于量子器件等 [16] - AI领域,英伟达将为中国市场推基于Blackwell架构芯片,天津发布人工智能行动方案,德国电信等合作建AI数据处理中心 [16] - SiC领域,基本半导体递表港交所IPO,长飞先进武汉基地投产,碳化硅成新能源汽车行业“新宠” [16] - 汽车电子领域,特斯拉在欧洲销量下滑,上汽集团和三菱汽车注册量增长,上海峰梅动力系统有限公司成立 [17] - 消费电子领域,雷鸟X3 Pro AR眼镜发布,存储芯片市场迎来涨价潮 [17] 行业数据跟踪 - 半导体方面,小米推出自研3纳米旗舰处理器“玄戒O1”及4G手表芯片“玄戒T1”,性能与功耗优异,市场反响热烈 [18] - SiC方面,基本半导体冲击港交所IPO,是行业领先企业,产品组合全面,服务多领域 [20] - 消费电子方面,雷鸟X3 Pro AR眼镜搭载新一代光引擎,实现全彩输出,佩戴体验好 [22] 本周行情回顾 - 涨跌幅方面,全行业中电子行业排名13/31,指数上涨1.29%;电子行业中汽车跌幅最大,环保涨幅最大;电子标的涨幅前三为远望谷、商络电子、天津普林,跌幅前三为太龙股份、福立旺、茂莱光学 [29][32][34] - PE方面,电子指数PE为49.42倍,10年PE百分位为69.29%,不同子版块PE和PE百分位不同 [37][44] 本周新股 - 报告给出本周IPO审核状态更新表格,但未填写具体内容 [50]
刚刚,老黄携GB300震撼登场!DeepSeek推理暴涨40倍加速全球最快,26年Rubin问世
创业邦· 2025-03-19 11:17
文章核心观点 英伟达在GTC大会展示过去一年进展,发布新产品路线图,强调Scaling Law未撞墙,未来数据中心建设规模将达万亿美元,还推出开源推理软件和通用机器人模型,有望在AI和机器人领域持续引领发展[1][23][27] 分组1:大会亮点与行业趋势 - 英伟达老黄在GTC大会介绍过去一年进展,称今年GTC是AI的超级碗,每个人都是赢家 [2] - Blackwell全面投产,因AI拐点至,训练推理AI/智能体系统对计算量需求大增 [3] - 英伟达预言未来有工厂的公司将有实体工厂和AI工厂,CUDA核心及算力将引爆行业变革 [4] - 通用计算到尽头,行业正从通用计算机转向加速器和GPU上运行的机器学习软件,计算机成为生成token的工具 [28] - 加速计算趋势无法阻挡,AI将进入各行业,英伟达CUDA - X库为科学领域提供加速框架 [29] 分组2:产品路线图 - AI芯片每年一更,下一代Rubin明年亮相,英伟达构建云上、企业和机器人AI基础设施 [5][8] - 今年下半年将问世的Blackwell Ultra提升训练和测试时推理能力,显存从192GB提升到288GB,GB300 NVL72的AI性能比NVIDIA GB200 NVL72高出1.5倍 [6][7] - 2026年下半年预计发布Vera Rubin,推理时每秒50千万亿次浮点运算,比Blackwell速度高出一倍多,显存升级为HBM4,带宽从8TB/s提高到13TB/s,扩展NVLink吞吐量提升到260TB/s,机架间CX9链路达28.8TB/s [9][10] - 2027年下半年预计推出Rubin Ultra版本,FP4精度推理性能达15 ExaFLOPS,FP8精度训练性能为5 ExaFLOPS,相比GB300 NVL72性能有14倍提升,配备HBM4e内存,带宽为4.6 PB/s,支持NVLink 7,带宽为1.5 PB/s,较上一代提升12倍,机架支持CX9,带宽达115.2 TB/s [11] - 2028年将上市Feynman,命名致敬美国理论物理学家Richard Feynman [17] 分组3:桌面级产品 - 推出Blackwell RTX PRO工作站和服务器系列,包括数据中心、桌面和笔记本GPU,为开发者等提供AI支持,RTX PRO 6000 Blackwell吞吐量高达1.5倍,第五代Tensor Core每秒4000万亿次AI运算,第四代RT Core性能提升2倍 [19] - 带来两款由Blackwell驱动的DGX个人桌面AI超级计算机DGX Spark和DGX Station,DGX Spark是最小的AI超级计算机,配备128GB内存,核心是GB10 Grace Blackwell超级芯片,每秒1000万亿次AI计算能力;DGX Station将数据中心级性能带到桌面,采用GB300 Grace Blackwell Ultra桌面超级芯片,配备784GB统一内存 [20][22] 分组4:Scaling Law与数据中心 - 老黄称Scaling Law没撞墙,推理计算量需求大增,数据可通过强化学习和合成数据获取,AI处于转折点 [25][26] - 2024年全球TOP 4云服务商买进130万块Hopper架构芯片,预计2028年数据中心建设规模达一万亿美元 [27] 分组5:架构与扩展 - 英伟达通过网络InfiniBand和Spectrum X实现scale up,Spectrum X具备低延迟和拥塞控制特性,成功扩展最大单GPU集群 [14] - 官宣首个共封装硅光子系统,每秒1.6T的CPO,基于「微环谐振器调制器」技术,用台积电工艺构建,可扩展至数十万甚至百万GPU规模 [15][16] - HGX系统架构解决纵向扩展问题,包含8个GPU,通过MVLink 8连接到CPU架,再通过PCI Express连接,用InfiniBand连接多个设备,NVLink交换机让GPU全带宽通信,液冷压缩计算节点,实现一个机架Exaflops级超算 [31][32][33] 分组6:推理Scaling问题与解决 - 推理Scaling是「终极计算」问题,推理中响应时间和吞吐量存在矛盾,需最大化生成token曲线下方面积,还需巨大带宽和浮点运算能力 [36] - 传统LLM用不到500个token快速回答问题但结果错误,推理模型需超8000个token推理简单问题,计算量增加150倍,万亿级参数模型需通过管线、张量和专家并行组合解决,NVlink可实现规模终极Scaling [37][38][39] 分组7:NVIDIA Dynamo - 发布开源推理软件NVIDIA Dynamo,被称为「AI工厂的操作系统」,能协调加速数千个GPU间推理通信,分配LLM处理和生成阶段到不同GPU,优化GPU资源利用 [41][42] - Dynamo能让运行Llama模型的AI工厂在Hopper架构上性能和收入双双翻倍,在GB200 NVL72集群上运行DeepSeek - R1模型时,每个GPU生成token数量提升超30倍,还能动态分配GPU、卸载推理数据降低成本 [42] - Dynamo完全开源,支持PyTorch、SGLang、NVIDIA TensorRT - LLM和vLLM [43] 分组8:性能对比与效益 - 新的Blackwell架构比Hopper强,能耗固定时性能提升25倍,推理模型上高40倍,用MVLink 8技术加速,引入4位浮点数优化,能效高的架构对未来数据中心重要 [44] - Blackwell扩展到MVLink 72加上Dynamo软件效果更好,能适应不同工作负载,老黄认为大型项目投资最新技术如Blackwell可避免落后,买得越多赚得越多 [45][46] 分组9:通用机器人模型 - 预计本世纪末世界劳动力短缺超5000万,通用机器人时代到来,具身智能遵循三大Scaling Law,数据短缺问题可由英伟达Omniverse和Cosmos解决 [48][49] - 官宣世界首个开源、完全可定制的通用人形机器人模型GROOT N1,采用「双系统架构」,慢思考系统推理规划行动,快思考系统转化为精确动作,可执行多步骤任务 [50][51][52] - 与DeepMind、迪士尼研究开发下一代开源的Newton物理引擎,让机器人精确处理复杂任务,以星球大战BDX机器人为灵感的Blue上台互动,老黄预言机器人领域将成最大产业 [54][55][56]
NVIDIA Blackwell Ultra AI Factory Platform Paves Way for Age of AI Reasoning
Globenewswire· 2025-03-19 02:34
文章核心观点 - 英伟达宣布推出下一代Blackwell AI工厂平台Blackwell Ultra,为AI推理时代铺平道路,可加速AI推理、代理AI和物理AI等应用 [1][15] 产品介绍 - Blackwell Ultra基于一年前推出的Blackwell架构,包括GB300 NVL72机架级解决方案和HGX™ B300 NVL16系统 [2] - GB300 NVL72连接72个Blackwell Ultra GPU和36个基于Arm Neoverse的Grace™ CPU,AI性能比GB200 NVL72高1.5倍,相比基于Hopper™构建的AI工厂,将Blackwell的营收机会提高50倍 [2][3] - HGX B300 NVL16在大语言模型上的推理速度比Hopper一代快11倍,计算能力高7倍,内存大4倍,为复杂工作负载提供突破性性能 [5] 应用场景 - Blackwell Ultra平台适用于AI推理、代理AI和物理AI等应用,代理AI可自主解决复杂多步骤问题,物理AI可实时生成合成逼真视频用于机器人和自动驾驶汽车训练 [1][17] 技术支持 - Blackwell Ultra系统与Spectrum-X™以太网和Quantum-X800 InfiniBand平台无缝集成,每个GPU数据吞吐量达800 Gb/s,提供一流的远程直接内存访问能力 [6] - BlueField® - 3 DPUs支持多租户网络、GPU计算弹性、加速数据访问和实时网络安全威胁检测 [7] 合作伙伴与可用性 - 预计2025年下半年起,Cisco、Dell Technologies等众多合作伙伴将推出基于Blackwell Ultra的服务器,亚马逊、谷歌等云服务提供商和GPU云提供商将率先提供相关实例 [8][9] 软件创新 - 英伟达Dynamo开源推理框架可扩展推理AI服务,提高吞吐量、减少响应时间和模型服务成本,最大化AI工厂的代币收入 [10][11] - Blackwell系统适用于运行新的Llama Nemotron Reason模型和AI - Q蓝图,由AI Enterprise软件平台支持,该平台包含NIM™微服务等 [12] - Blackwell平台基于英伟达强大的开发工具生态系统、CUDA - X™库、超600万开发者和4000 +应用程序 [13]
NVIDIA Dynamo Open-Source Library Accelerates and Scales AI Reasoning Models
Globenewswire· 2025-03-19 02:17
文章核心观点 - NVIDIA推出开源推理软件Dynamo,可加速和扩展AI推理模型,以最低成本和最高效率运行AI工厂,提高推理性能并降低成本,增加代币收入 [1][3] 产品介绍 - Dynamo是NVIDIA Triton Inference Server™的继任者,可协调和加速跨数千个GPU的推理通信,采用分离式服务优化大语言模型处理和生成阶段,确保GPU资源最大利用率 [3] - 同一数量GPU下,Dynamo使运行Llama模型的AI工厂性能和收入翻倍,运行DeepSeek - R1模型时每GPU生成代币数量提升超30倍 [4] - 具备动态调整GPU、定位特定GPU、卸载推理数据等功能,可提高吞吐量并降低成本 [5] - 完全开源,支持多种框架,可让企业、初创公司和研究人员开发和优化AI模型服务方式,加速AI推理采用 [6] 应用案例 - 映射推理系统内存知识,将新推理请求路由到匹配GPU,避免重复计算,释放GPU响应新请求 [7] - Perplexity AI期待利用Dynamo增强分布式服务能力,提高推理服务效率,满足新AI推理模型计算需求 [8] - Cohere计划用Dynamo为其Command系列模型提供代理AI功能,认为其有助于为企业客户提供优质用户体验 [8][9] - 支持分离式服务,将大语言模型不同计算阶段分配到不同GPU,适用于新NVIDIA Llama Nemotron模型家族,可提高吞吐量和响应速度 [9] - Together AI计划将其推理引擎与Dynamo集成,实现推理工作负载跨GPU节点无缝扩展,动态解决模型管道各阶段流量瓶颈 [10] 关键创新 - GPU Planner:动态添加和移除GPU,适应波动的用户需求,避免GPU过度或供应不足 [14] - Smart Router:引导请求跨大型GPU集群,减少重复或重叠请求的GPU重新计算,释放GPU响应新请求 [14] - Low - Latency Communication Library:支持先进的GPU到GPU通信,抽象异构设备数据交换复杂性,加速数据传输 [14] - Memory Manager:智能地将推理数据卸载和重新加载到低成本内存和存储设备,不影响用户体验 [15] 产品可用性 - 将在NVIDIA NIM™微服务中提供,并在未来版本的NVIDIA AI Enterprise软件平台中得到支持,具备生产级安全、支持和稳定性 [15]