cuDNN
搜索文档
英伟达Agent超越人类GPU专家!连续7天自主进化,优化算子性能碾压FlashAttention-4
量子位· 2026-03-28 14:33
文章核心观点 - 英伟达最新发布的智能体变异算子AVO,在无需人工干预的情况下,仅用7天时间自动进化出超越几乎所有人类GPU专家的注意力机制优化方案,这被认为是软件领域首次出现超人类智能的实质性迹象 [2][7] AVO的技术突破与性能表现 - 在同一款GPU上,AVO优化方案性能超出英伟达官方加速引擎cuDNN 3.5%,比当前公认最强的FlashAttention-4还快了10.5% [4] - 优化后的方案能直接复用,仅用30分钟就能适配到另一种注意力机制上,且运算速度依旧领先 [5] - 在多头注意力性能验证中,AVO优化后的核函数在因果注意力场景实现全配置领先,相比cuDNN性能增益范围为0.4%到3.5%,相比FlashAttention-4增益范围为5.0%到10.5% [27][28] - 在非因果注意力场景的长序列测试中实现稳定增益,并在BF16精度下达到1668 TFLOPS的峰值吞吐量,刷新了B200 GPU上注意力核函数的性能纪录 [29][30] - 将优化后的多头注意力核函数自主适配到分组查询注意力时,仅用30分钟完成全部代码适配,且适配后的核函数在所有测试配置中全面超越cuDNN和FlashAttention-4 [32][33] AVO的核心设计原理 - AVO将代码优化的全部流程统一交给智能体自主完成,其核心是将变异过程重构为一个自主导向的智能体循环,包括查阅迭代情况、领域知识库以及修改测试验证等 [13][15] - 具体操作流程分为四步:前置分析与调研、迭代式编辑、提交新版本、优化策略的动态适配 [18][19][20][21][22] - 针对长时程自主优化中的搜索停滞和无效循环问题,AVO引入了自监督机制,能实时监测进化过程并自动触发干预,引导出新的候选优化方向 [23] AVO的优化规模与能力 - 在7天的优化过程中,AVO生成了40个正式提交的核函数版本,并自主探索了500余个候选优化方案,其探索规模是人类工程师无法匹敌的 [33] - 性能提升呈现离散阶跃式,主要来自5个核心的架构级优化拐点,其余版本则通过微架构优化实现性能的复合式提升 [35] - 该技术已具备人类专家级的硬件底层优化能力,且完全自动化、无需人工干预 [37]
刚刚,英伟达革了自己的命:智能体自主进化7天,干掉所有算子工程师、GPU专家
36氪· 2026-03-26 12:14
研究背景与核心创新 - 英伟达提出了一种名为智能体式变异算子(Agentic Variation Operators, AVO)的新型进化变异算子,它用自主编码智能体取代了经典进化搜索中固定的变异、交叉和人工设计的启发式方法 [2] - 该研究旨在解决传统基于大语言模型(LLM)的进化搜索的局限,即LLM被限制在预设流程中仅作为候选解生成器,无法主动查阅资料、测试、解读反馈或修正方案,这对于需要深度迭代的顶级硬件优化任务尤为致命 [5][10] - AVO将深度智能体提升为变异算子本身,使其成为一个自我驱动的智能体循环,能够自主决定查阅内容、修改对象及评估时机,实现长周期内的持续改进,从而将AI从被动的“代码生成器”转变为掌握全局的“进化操盘手” [6][7][10][12] 技术验证与性能表现 - 研究将AVO应用于NVIDIA Blackwell B200 GPU上的多头注意力(MHA)内核优化,在无需人工干预、连续7天的自主演化中,智能体探索了超过500个优化方向,演化出40个内核版本 [9][16] - 最终生成的MHA内核在BF16精度下达到了最高1668 TFLOPS的吞吐量,在测试配置中性能超越英伟达官方cuDNN库高达3.5%,超越目前最前沿的开源基准FlashAttention-4高达10.5% [9][14][19] - 研究证明了优化技术的强大泛化能力:智能体仅需30分钟的额外自主适配,即可将演化版MHA内核迁移至分组查询注意力(GQA),其性能相比cuDNN提升高达7.0%,相比FlashAttention-4提升高达9.3% [9][18][23] 优化深度与硬件级推理 - 分析表明,智能体发现的优化涵盖了内核设计的多个层面,包括寄存器分配、指令流水线调度和负载分布,反映了真正的硬件级推理,而非表层的代码变换 [9][14][24] - 具体优化案例包括:通过消除条件分支和替换轻量级内存屏障,使非因果注意力吞吐量一次性提升8.1%;重新组织执行流水线以实现张量核心计算重叠,减少硬件空闲等待时间;通过分析性能数据,对Blackwell的2048个寄存器预算进行重新分配,进一步榨取2.1%的性能提升 [25] - 该研究证明AI智能体已具备处理多硬件子系统(如同步、内存排序、流水线调度和寄存器分配)联合推理的能力,为未来的自动化软件系统优化指明了方向 [24] 行业意义与未来展望 - 研究人员将这种方法称为“盲编程”,即开发完全自动化、无需人工干预的系统,并断言“盲编程是软件工程的未来”,因为人类认知能力是瓶颈 [3] - AVO作为一种不局限于特定领域的进化变异算子,不仅可用于AI芯片和深度学习底层生态的开发,未来更有望在所有对算力有极致苛求的科学和工程领域中大展拳脚 [24] - 这项研究被评价为“超人类智能在软件领域的真正首次展露”,其表现可能会对现有的内核/领域特定语言(DSL)开发产生深远影响 [1][2]
黄仁勋:英伟达在中国的市场份额从95%变成了0%
虎嗅· 2025-10-17 22:12
演讲核心观点 - 英伟达创始人黄仁勋在城堡证券的闭门对话中阐述了其关于计算未来的核心观点:未来的计算将是百分之百的生成式 [4][46] - 演讲旨在构建一个“算力世界观”,将算力定位为新的生产力,并将英伟达定位为AI时代变革的底层基础设施提供者 [51][54][56] - 此次对话面向全球顶级资本,本质是一次“资本动员”,为投资界勾勒AI驱动的未来经济框架 [52][58][71] 英伟达发展历程与战略演变 - 1993年,公司采取反主流策略,专注于为“极难的问题”开发专用计算加速器(GPU),而非追逐通用CPU [8][9][10] - 早期通过与游戏公司(如Electronic Arts)合作创造3D游戏市场,以证明GPU价值,策略是“技术没市场,就得先造一个市场” [15][16][18] - 2000年代发明CUDA,将GPU从图形处理器转变为通用计算平台,为AI发展提供了关键的软件生态和“思想接口” [19][20][21] - 2012年通过推出cuDNN加速库,助力AlexNet等神经网络实现突破,标志着AI的“第一次觉醒” [23][25][26] AI工厂与未来商业模式 - AI工厂是公司的核心战略,其与传统数据中心的本质区别在于不储存信息,而是“生产智能” [29][30] - 公司从设计GPU转变为设计完整的智能生产体系,实现从芯片、网络、服务器到软件算法的一体化协同 [31][32] - AI工厂被类比为工业革命的“炼钢厂”,其产出是“认知动力”,公司成为新工业体系的底层 [33][56] - 未来企业将存在人类与AI两种员工,AI作为“数字劳动力”需要被训练和管理,CIO的角色将演变为AI的HR部门 [34][35][36] 生成式计算与行业影响 - 生成式计算是未来方向,从传统的“检索式”(你问它查)转变为“生成式”(你问它创造),使机器具备想象力 [46][47] - 生成式AI的应用示例如Sora(视频生成)和Perplexity(搜索),预示着所有计算结果都将进入生成时代 [48] - 这被视为一场“想象力的解放”,其意义堪比工业革命带来的“力量解放” [50] - 算力是新能源,算法是新机器,数据是新原材料,共同构成AI时代的经济学基础 [55][60] 地缘政治与市场观点 - 公司提及因出口管制,其在中国市场的份额从95%降至0%,已彻底退出中国市场 [40] - 公司认为任何导致美国失去全球第二大计算市场(中国)的政策都不是好政策 [41] - 公司指出全球超过一半的AI研究者在中国,限制他们使用美国技术是一个“战略性错误” [43] - 此举被解读为以商业逻辑向政策层传递信号,暗示技术封锁可能使美国退出全球AI工业秩序 [44][63][65]
黄仁勋说英伟达在中国的市场份额从95%变成了0
36氪· 2025-10-17 19:21
英伟达的战略愿景与计算范式演进 - 公司创始人提出"未来的计算将是百分之百的生成式",标志着计算范式从检索式向生成式的根本性转变 [2][21] - 生成式AI代表人类首次让机器具备想象力,能够创造内容而非仅仅查找信息,例如生成视频和搜索内容 [21][22] - 这一转变被类比为工业革命中力量的解放,而生成革命则是想象力的解放 [23] 公司发展历程与战略转折点 - 1993年公司采取反主流策略,专注于开发针对极难问题的计算加速器,而非通用处理器 [4][5][6] - 公司将GPU定位为"专业匠人",与作为"通用工人"的CPU形成互补,采用工业革命语言阐述算力逻辑 [7] - 早期通过与游戏公司合作创造3D游戏市场来证明GPU价值,采用先造生态再等市场的策略 [8] - 2000年代推出CUDA平台,将GPU转变为通用计算平台,为AI发展提供土壤 [9][10] - 2012年通过开发cuDNN加速库显著提升神经网络训练速度,推动AlexNet在图像识别领域取得突破 [11][12] AI工厂概念与基础设施战略 - AI工厂核心功能是生产智能而非储存信息,每次训练和推理均属于制造过程 [13] - 公司从设计GPU扩展至设计完整生产体系,涵盖芯片、网络、服务器、软件和算法的一体化协同 [14] - 该概念被类比为工业革命中的蒸汽机厂,AI工厂提供认知动力,成为新工业体系的底层基础设施 [15] 未来企业组织形态与AI管理 - 未来企业将存在人类与AI两类员工,AI作为数字劳动力需要被训练和文化化 [16][17] - 首席信息官角色将转变为AI的HR部门,负责管理AI员工的入职和培训流程 [17] - 企业需要学会管理AI劳动力,重新定义组织边界,这标志着组织革命的开始 [18] 全球市场与地缘政治影响 - 公司在中国市场份额从95%降至0%,出口管制导致完全退出该市场 [19] - 政策制定被指可能导致美国失去全球第二大计算市场,产生伤敌一千自损八百的效果 [19] - 超过一半的AI研究者位于中国,限制其使用美国技术被视为战略性错误 [19] - 技术制裁相当于退出新兴工业秩序,公司尝试用商业逻辑向政策层传递地缘政治观点 [20] 资本动员与行业定位 - 演讲面向掌控全球数万亿美元资金的华尔街投资者,旨在引导资本流向 [1][24][29] - 公司定位为AI时代变革的"炼钢厂",提供算力新资源和生成系统等生产资料 [26][28][30] - 通过构建"AI世界的经济学"框架,将算力定义为新能源,算法为新机器,数据为新原材料 [25][26][27] - 演讲本质是一次资本动员,旨在让投资者将AI视为趋势而非工具,作为新的生产资料进行投资 [30][37]
黄仁勋亲述“英伟达创业史”:1993年的洞见,2012年的突破,未来的AI
华尔街见闻· 2025-10-15 18:22
英伟达的战略定位与历史沿革 - 公司在1993年创立时预见到通用计算CPU的局限性与摩尔定律的终结,从而确定了加速计算的战略方向 [1] - 英伟达同时发明新技术和现代3D游戏市场,解决了鸡生蛋还是蛋生鸡的困境 [1] - 通过CUDA Everywhere策略将CUDA推广至科研界,加速了ImageNet等竞赛的突破 [1] - 基于深度学习是通用函数逼近器的洞察,公司彻底重塑计算堆栈,将AI集成到所有芯片、系统和软件中 [1] 全栈协同设计的技术优势 - 2016年推出首台AI工厂DGX-1,其核心秘诀在于全栈协同设计:同时设计和集成整个基础设施(网络、CPU、GPU)并运行统一软件栈 [2] - 这种高度集成突破摩尔定律限制,实现代际间约10倍的性能飞跃 [2] - 公司是当今世界上唯一能提供从建筑、电力到白纸的完整AI工厂解决方案的企业,所有网络、交换机、CPU、GPU都运行英伟达统一软件栈 [32] - 全栈设计使产品保持软件兼容,能以物理极限速度创新,每年带来约10倍的性能提升 [33] AI工厂的商业价值与市场规模 - AI已在超大规模数据中心实现数千亿美元的实际ROI,如搜索、推荐系统等 [3] - AI工厂为客户提供极高能效,1千兆瓦的人工智能工厂GPU价值约500亿美元 [31] - 公司预测AI将开创两个万亿级新市场:数字劳动力(Agentic AI)和物理AI(机器人技术) [3][4] - AI工厂市场需求正处于数万亿美元的爆发初期,当前仅建造了几千亿美元基础设施 [66] 未来计算范式与增长前沿 - 未来计算的本质是100%生成式,一切内容都将被实时智能生成 [5] - 数字劳动力将创造AI软件工程师、AI律师等数字人,企业劳动力将是人类和数字人的结合 [47][48] - 物理AI将实现通用AI驱动的多具身机器人,包括自动驾驶、人形机器人等 [4][50] - 支持机器人需要训练、模拟、运行三类计算机,Omniverse虚拟世界被严重低估但至关重要 [54][73] 行业应用与投资回报 - 推荐系统是世界上最大的软件生态系统,正迅速转向AI,将需要大量GPU [40] - Meta通过英伟达GPU驱动的AI恢复归因能力,挽回数千亿美元市值 [39] - 超大规模数据中心行业从经典机器学习转向深度学习的转型价值数千亿美元 [36] - 公司为量子计算推出CUDA-Q架构,可将量子计算进程提前约十年 [57] 技术创新与生态建设 - cuDNN库是有史以来最重要的库之一,与SQL同等重要,公司拥有约350个这样的库 [72] - 每单位能源的吞吐量决定客户收入,成为未来AI工厂的关键绩效指标 [70] - 公司通过统一软件栈实现极快的创新速度,同时提供最高性能和最大规模 [33] - Omniverse虚拟世界使AI能在进入现实世界前进行数万亿次迭代,simulation-to-real差距极小 [54]
全球市值第一 英伟达如何踏入AI计算芯片领域
天天基金网· 2025-08-12 19:24
英伟达市值与市场地位 - 英伟达在6月初超过微软成为全球市值最高的上市公司,7月初市值突破4万亿美元,成为首家达到这一里程碑的企业,股价触及164.32美元的历史最高点,目前股价已超过180美元 [2] - 市值飙升主要源于投资者对人工智能变革潜力的信心,以及合作伙伴OpenAI发布GPT-5的推动 [2] - 公司从游戏芯片制造商转型为加密挖矿芯片制造商,最终成为人工智能计算芯片领域的早期赢家 [2] 英伟达的AI转型关键人物与事件 - 布莱恩·卡坦扎罗(现任英伟达应用深度学习研究副总裁)在英特尔实习期间发现传统计算机架构的局限性,提出并行计算是人工智能的解决方案 [5] - 卡坦扎罗2011年加入英伟达,成为首位专职AI研究员,用12个GPU完成原本需要2000个CPU的“猫脸识别”实验 [5][6] - 他开发的cuDNN(深度学习加速库)最初被软件团队否定,但通过越级向CEO黄仁勋陈述后获得支持 [6][7] 黄仁勋的战略决策与公司转型 - 黄仁勋将cuDNN视为公司20年历史中最重要的项目,提出“OIALO”(Once In A Lifetime Opportunity) [8] - 基于第一性原则,黄仁勋推断神经网络将变革社会,并通过CUDA平台占据硬件市场 [8] - 英伟达在黄仁勋的决策下,仅用一个周末完成从图形芯片公司向AI芯片公司的转型 [8] 技术突破与行业影响 - 英伟达发现矩阵乘法适合并行处理,并在cuDNN开发中优先考虑速度而非精度,以适应大规模神经网络的需求 [9][10] - 2014年GTC大会上,黄仁勋首次公开英伟达与AI的结合,卡坦扎罗展示改良版AlexNet的实时犬种识别能力 [11] - 2016年谷歌AlphaGo的成功推动GPU需求,英伟达获得“麦克卡车项目”订单(4万个GPU,价值1.3亿美元),成为公司史上最大单笔订单 [11] AI与硬件协同发展的未来展望 - 深度学习是软件与硬件的双重革命,并行计算与神经网络的结合被视为未来重塑人类文明的关键 [12] - 英伟达的转型案例凸显了企业资产支出向AI领域转移的趋势 [2][12]
英伟达:从显卡巨头到AI霸主
钛媒体APP· 2025-07-14 13:29
战略转型与市场地位 - 公司从游戏图形芯片制造商转型为全球人工智能计算基础设施核心供应商,市值一度突破3万亿美元 [1] - 数据中心业务成为主要增长引擎,2025财年第四季度营收393亿美元(同比+78%),其中数据中心业务收入356亿美元(同比+93%) [2] - 2025财年全年营收1305亿美元,同比翻番,AI相关业务成为营收增长主引擎 [2] - 高端GPU产品(H100/H200/Blackwell系列)成为大型AI模型训练的"基础设施"基石,全球主要云服务提供商均大量采购 [3] - 向沙特PIF旗下Humain公司出售超过1.8万个最新AI芯片,用于建设容量最高500兆瓦的数据中心 [3] 技术优势与生态系统 - CUDA平台(2006年推出)构建了围绕英伟达硬件的软件生态系统,为AI计算奠定基础 [6] - 2012年深度学习突破性成果依赖于英伟达GPU和CUDA生态系统 [7] - 持续改进GPU架构(如Tensor Cores)并优化CUDA平台配套软件库(cuDNN/TensorRT) [8] - 通过收购Mellanox进入高性能网络领域,提供高速互连解决方案(InfiniBand) [8] - 开发DGX系列AI超级计算机,提供集成硬件和软件解决方案 [8] 行业领导地位 - 硬件性能和架构领先,与台积电等先进半导体制造商紧密合作保持代际优势 [10][11] - CUDA软件生态系统形成行业标准,全球数百万AI研究人员依赖该平台 [11] - 提供从芯片、板卡、系统、网络到软件的全栈服务能力 [12] - 品牌影响力和开发者社区形成正向反馈循环,巩固市场地位 [12] - 在复杂AI模型训练领域保持绝对优势,竞争对手需在硬件性能和软件生态上同时追赶 [13]