Blackwell B200 GPU
搜索文档
英伟达Agent超越人类GPU专家!连续7天自主进化,优化算子性能碾压FlashAttention-4
量子位· 2026-03-28 14:33
文章核心观点 - 英伟达最新发布的智能体变异算子AVO,在无需人工干预的情况下,仅用7天时间自动进化出超越几乎所有人类GPU专家的注意力机制优化方案,这被认为是软件领域首次出现超人类智能的实质性迹象 [2][7] AVO的技术突破与性能表现 - 在同一款GPU上,AVO优化方案性能超出英伟达官方加速引擎cuDNN 3.5%,比当前公认最强的FlashAttention-4还快了10.5% [4] - 优化后的方案能直接复用,仅用30分钟就能适配到另一种注意力机制上,且运算速度依旧领先 [5] - 在多头注意力性能验证中,AVO优化后的核函数在因果注意力场景实现全配置领先,相比cuDNN性能增益范围为0.4%到3.5%,相比FlashAttention-4增益范围为5.0%到10.5% [27][28] - 在非因果注意力场景的长序列测试中实现稳定增益,并在BF16精度下达到1668 TFLOPS的峰值吞吐量,刷新了B200 GPU上注意力核函数的性能纪录 [29][30] - 将优化后的多头注意力核函数自主适配到分组查询注意力时,仅用30分钟完成全部代码适配,且适配后的核函数在所有测试配置中全面超越cuDNN和FlashAttention-4 [32][33] AVO的核心设计原理 - AVO将代码优化的全部流程统一交给智能体自主完成,其核心是将变异过程重构为一个自主导向的智能体循环,包括查阅迭代情况、领域知识库以及修改测试验证等 [13][15] - 具体操作流程分为四步:前置分析与调研、迭代式编辑、提交新版本、优化策略的动态适配 [18][19][20][21][22] - 针对长时程自主优化中的搜索停滞和无效循环问题,AVO引入了自监督机制,能实时监测进化过程并自动触发干预,引导出新的候选优化方向 [23] AVO的优化规模与能力 - 在7天的优化过程中,AVO生成了40个正式提交的核函数版本,并自主探索了500余个候选优化方案,其探索规模是人类工程师无法匹敌的 [33] - 性能提升呈现离散阶跃式,主要来自5个核心的架构级优化拐点,其余版本则通过微架构优化实现性能的复合式提升 [35] - 该技术已具备人类专家级的硬件底层优化能力,且完全自动化、无需人工干预 [37]
Prediction: This AI Hardware Stock Could Become One of the Next $1 Trillion Companies
Yahoo Finance· 2026-01-14 22:35
文章核心观点 - 尽管AMD当前市值3300亿美元,距离万亿美元市值尚有距离,但其在人工智能硬件领域的进展可能使其比预期更快达到这一目标,最快或在四年内实现[1][2] 市场格局与竞争态势 - 英伟达是GPU和AI工作负载领域的绝对领导者,其产品在2023年AI热潮初期远优于AMD,成为市场首选[4] - 行业趋势正在转变,AMD通过大幅改进其控制软件ROCm,正成为可行的替代选择,并可能从英伟达手中夺取市场份额[5] - 英伟达在第三季度财报中宣布云GPU“售罄”,供应紧张可能导致客户转向AMD产品作为替代[8] 产品与定价分析 - AMD的硬件在AI领域正变得越来越受欢迎[2] - AMD的ROCm软件在2025年11月的下载量同比增长了10倍,表明开发者正积极探索其硬件[5] - 数据中心建设成本中,计算硬件可占近一半,成本控制是关键[6] - 英伟达旗舰数据中心GPU Blackwell B200的每芯片成本估计在3万至5万美元之间,而其竞争对手AMD的MI350芯片成本为2.5万美元,为AI超大规模用户提供了更具性价比的选择[7] 增长前景与市场机会 - 若AMD的预测成真,其市值可能在短短四年内达到1万亿美元[2] - 如果AMD的产品能以更低的价格提供相似的结果,未来可能会有更多客户选择其硬件[8] - AMD预计未来五年数据中心业务将实现巨大增长[9]