刚刚,英伟达革了自己的命:智能体自主进化7天,干掉所有算子工程师、GPU专家
英伟达英伟达(US:NVDA) 36氪·2026-03-26 12:14

研究背景与核心创新 - 英伟达提出了一种名为智能体式变异算子(Agentic Variation Operators, AVO)的新型进化变异算子,它用自主编码智能体取代了经典进化搜索中固定的变异、交叉和人工设计的启发式方法 [2] - 该研究旨在解决传统基于大语言模型(LLM)的进化搜索的局限,即LLM被限制在预设流程中仅作为候选解生成器,无法主动查阅资料、测试、解读反馈或修正方案,这对于需要深度迭代的顶级硬件优化任务尤为致命 [5][10] - AVO将深度智能体提升为变异算子本身,使其成为一个自我驱动的智能体循环,能够自主决定查阅内容、修改对象及评估时机,实现长周期内的持续改进,从而将AI从被动的“代码生成器”转变为掌握全局的“进化操盘手” [6][7][10][12] 技术验证与性能表现 - 研究将AVO应用于NVIDIA Blackwell B200 GPU上的多头注意力(MHA)内核优化,在无需人工干预、连续7天的自主演化中,智能体探索了超过500个优化方向,演化出40个内核版本 [9][16] - 最终生成的MHA内核在BF16精度下达到了最高1668 TFLOPS的吞吐量,在测试配置中性能超越英伟达官方cuDNN库高达3.5%,超越目前最前沿的开源基准FlashAttention-4高达10.5% [9][14][19] - 研究证明了优化技术的强大泛化能力:智能体仅需30分钟的额外自主适配,即可将演化版MHA内核迁移至分组查询注意力(GQA),其性能相比cuDNN提升高达7.0%,相比FlashAttention-4提升高达9.3% [9][18][23] 优化深度与硬件级推理 - 分析表明,智能体发现的优化涵盖了内核设计的多个层面,包括寄存器分配、指令流水线调度和负载分布,反映了真正的硬件级推理,而非表层的代码变换 [9][14][24] - 具体优化案例包括:通过消除条件分支和替换轻量级内存屏障,使非因果注意力吞吐量一次性提升8.1%;重新组织执行流水线以实现张量核心计算重叠,减少硬件空闲等待时间;通过分析性能数据,对Blackwell的2048个寄存器预算进行重新分配,进一步榨取2.1%的性能提升 [25] - 该研究证明AI智能体已具备处理多硬件子系统(如同步、内存排序、流水线调度和寄存器分配)联合推理的能力,为未来的自动化软件系统优化指明了方向 [24] 行业意义与未来展望 - 研究人员将这种方法称为“盲编程”,即开发完全自动化、无需人工干预的系统,并断言“盲编程是软件工程的未来”,因为人类认知能力是瓶颈 [3] - AVO作为一种不局限于特定领域的进化变异算子,不仅可用于AI芯片和深度学习底层生态的开发,未来更有望在所有对算力有极致苛求的科学和工程领域中大展拳脚 [24] - 这项研究被评价为“超人类智能在软件领域的真正首次展露”,其表现可能会对现有的内核/领域特定语言(DSL)开发产生深远影响 [1][2]

Nvidia-刚刚,英伟达革了自己的命:智能体自主进化7天,干掉所有算子工程师、GPU专家 - Reportify