英伟达Agent超越人类GPU专家！连续7天自主进化，优化算子性能碾压FlashAttention-4

文章核心观点 - 英伟达最新发布的智能体变异算子AVO，在无需人工干预的情况下，仅用7天时间自动进化出超越几乎所有人类GPU专家的注意力机制优化方案，这被认为是软件领域首次出现超人类智能的实质性迹象 [2][7] AVO的技术突破与性能表现 - 在同一款GPU上，AVO优化方案性能超出英伟达官方加速引擎cuDNN 3.5%，比当前公认最强的FlashAttention-4还快了10.5% [4] - 优化后的方案能直接复用，仅用30分钟就能适配到另一种注意力机制上，且运算速度依旧领先 [5] - 在多头注意力性能验证中，AVO优化后的核函数在因果注意力场景实现全配置领先，相比cuDNN性能增益范围为0.4%到3.5%，相比FlashAttention-4增益范围为5.0%到10.5% [27][28] - 在非因果注意力场景的长序列测试中实现稳定增益，并在BF16精度下达到1668 TFLOPS的峰值吞吐量，刷新了B200 GPU上注意力核函数的性能纪录 [29][30] - 将优化后的多头注意力核函数自主适配到分组查询注意力时，仅用30分钟完成全部代码适配，且适配后的核函数在所有测试配置中全面超越cuDNN和FlashAttention-4 [32][33] AVO的核心设计原理 - AVO将代码优化的全部流程统一交给智能体自主完成，其核心是将变异过程重构为一个自主导向的智能体循环，包括查阅迭代情况、领域知识库以及修改测试验证等 [13][15] - 具体操作流程分为四步：前置分析与调研、迭代式编辑、提交新版本、优化策略的动态适配 [18][19][20][21][22] - 针对长时程自主优化中的搜索停滞和无效循环问题，AVO引入了自监督机制，能实时监测进化过程并自动触发干预，引导出新的候选优化方向 [23] AVO的优化规模与能力 - 在7天的优化过程中，AVO生成了40个正式提交的核函数版本，并自主探索了500余个候选优化方案，其探索规模是人类工程师无法匹敌的 [33] - 性能提升呈现离散阶跃式，主要来自5个核心的架构级优化拐点，其余版本则通过微架构优化实现性能的复合式提升 [35] - 该技术已具备人类专家级的硬件底层优化能力，且完全自动化、无需人工干预 [37]