Workflow
盲编程
icon
搜索文档
刚刚,英伟达革了自己的命:智能体自主进化7天,干掉所有算子工程师、GPU专家
36氪· 2026-03-26 12:14
研究背景与核心创新 - 英伟达提出了一种名为智能体式变异算子(Agentic Variation Operators, AVO)的新型进化变异算子,它用自主编码智能体取代了经典进化搜索中固定的变异、交叉和人工设计的启发式方法 [2] - 该研究旨在解决传统基于大语言模型(LLM)的进化搜索的局限,即LLM被限制在预设流程中仅作为候选解生成器,无法主动查阅资料、测试、解读反馈或修正方案,这对于需要深度迭代的顶级硬件优化任务尤为致命 [5][10] - AVO将深度智能体提升为变异算子本身,使其成为一个自我驱动的智能体循环,能够自主决定查阅内容、修改对象及评估时机,实现长周期内的持续改进,从而将AI从被动的“代码生成器”转变为掌握全局的“进化操盘手” [6][7][10][12] 技术验证与性能表现 - 研究将AVO应用于NVIDIA Blackwell B200 GPU上的多头注意力(MHA)内核优化,在无需人工干预、连续7天的自主演化中,智能体探索了超过500个优化方向,演化出40个内核版本 [9][16] - 最终生成的MHA内核在BF16精度下达到了最高1668 TFLOPS的吞吐量,在测试配置中性能超越英伟达官方cuDNN库高达3.5%,超越目前最前沿的开源基准FlashAttention-4高达10.5% [9][14][19] - 研究证明了优化技术的强大泛化能力:智能体仅需30分钟的额外自主适配,即可将演化版MHA内核迁移至分组查询注意力(GQA),其性能相比cuDNN提升高达7.0%,相比FlashAttention-4提升高达9.3% [9][18][23] 优化深度与硬件级推理 - 分析表明,智能体发现的优化涵盖了内核设计的多个层面,包括寄存器分配、指令流水线调度和负载分布,反映了真正的硬件级推理,而非表层的代码变换 [9][14][24] - 具体优化案例包括:通过消除条件分支和替换轻量级内存屏障,使非因果注意力吞吐量一次性提升8.1%;重新组织执行流水线以实现张量核心计算重叠,减少硬件空闲等待时间;通过分析性能数据,对Blackwell的2048个寄存器预算进行重新分配,进一步榨取2.1%的性能提升 [25] - 该研究证明AI智能体已具备处理多硬件子系统(如同步、内存排序、流水线调度和寄存器分配)联合推理的能力,为未来的自动化软件系统优化指明了方向 [24] 行业意义与未来展望 - 研究人员将这种方法称为“盲编程”,即开发完全自动化、无需人工干预的系统,并断言“盲编程是软件工程的未来”,因为人类认知能力是瓶颈 [3] - AVO作为一种不局限于特定领域的进化变异算子,不仅可用于AI芯片和深度学习底层生态的开发,未来更有望在所有对算力有极致苛求的科学和工程领域中大展拳脚 [24] - 这项研究被评价为“超人类智能在软件领域的真正首次展露”,其表现可能会对现有的内核/领域特定语言(DSL)开发产生深远影响 [1][2]
刚刚,英伟达革了自己的命:智能体自主进化7天,干掉所有算子工程师、GPU专家
机器之心· 2026-03-26 11:08
文章核心观点 - 英伟达发布了一项名为“智能体式变异算子”的新研究,该研究利用自主编码智能体取代传统进化搜索中固定的人工设计方法,实现了在无需人工干预的情况下,对GPU核心代码进行持续优化并超越人类专家水平,这标志着“盲编程”可能成为软件工程的未来方向 [2][3][4] 技术突破:AVO的核心机制 - 提出“智能体式变异算子”这一新型进化变异算子,将深度智能体从固定流水线中的代码生成器提升为自主的“进化操盘手”,智能体可以自主查阅资料、测试代码、解读反馈并修正方案 [6][9][13] - AVO智能体能够进行长周期的持续改进,在研究中连续自主运行7天,探索超过500个优化方向,并演化出40个内核版本 [3][11][20] 性能表现:超越顶尖基准 - 在NVIDIA Blackwell B200 GPU上优化多头注意力内核,最终实现高达**1,668 TFLOP/s**的吞吐量,相比英伟达cuDNN库性能提升高达**3.5%**,相比开源基准FlashAttention-4提升高达**10.5%** [11][14][24] - 优化成果展现出强大的泛化能力,仅用**30分钟**的自主适配就将优化迁移至分组查询注意力内核,性能相比cuDNN提升高达**7.0%**,相比FlashAttention-4提升高达**9.3%** [11][23][26] 优化深度:硬件级推理能力 - 智能体进行的优化涉及内核设计的深层微架构层面,包括寄存器分配、指令流水线调度和负载分布等,表明其具备真正的硬件级推理能力,而非表面代码变换 [11][14][28] - 具体优化案例包括:通过无分支累加器重缩放将非因果注意力吞吐量提升**8.1%**;通过纠错与张量核心流水线重叠减少硬件空闲;通过跨warp组的寄存器重新平衡进一步压榨出**2.1%**的性能提升 [29] 行业影响与未来展望 - 该研究突破了将大语言模型限制在预设流程中的传统限制,为解决需要深度迭代工程的极致优化问题提供了新范式 [6][7][13] - AVO作为一种不局限于特定领域的进化变异算子,为未来的自动化软件系统优化指明方向,有望在AI芯片、深度学习底层乃至所有对算力有极致要求的科学和工程领域广泛应用 [28]