刚刚，英伟达革了自己的命：智能体自主进化7天，干掉所有算子工程师、GPU专家

文章核心观点 - 英伟达发布了一项名为“智能体式变异算子”的新研究，该研究利用自主编码智能体取代传统进化搜索中固定的人工设计方法，实现了在无需人工干预的情况下，对GPU核心代码进行持续优化并超越人类专家水平，这标志着“盲编程”可能成为软件工程的未来方向 [2][3][4] 技术突破：AVO的核心机制 - 提出“智能体式变异算子”这一新型进化变异算子，将深度智能体从固定流水线中的代码生成器提升为自主的“进化操盘手”，智能体可以自主查阅资料、测试代码、解读反馈并修正方案 [6][9][13] - AVO智能体能够进行长周期的持续改进，在研究中连续自主运行7天，探索超过500个优化方向，并演化出40个内核版本 [3][11][20] 性能表现：超越顶尖基准 - 在NVIDIA Blackwell B200 GPU上优化多头注意力内核，最终实现高达1,668 TFLOP/s的吞吐量，相比英伟达cuDNN库性能提升高达3.5%，相比开源基准FlashAttention-4提升高达10.5% [11][14][24] - 优化成果展现出强大的泛化能力，仅用30分钟的自主适配就将优化迁移至分组查询注意力内核，性能相比cuDNN提升高达7.0%，相比FlashAttention-4提升高达9.3% [11][23][26] 优化深度：硬件级推理能力 - 智能体进行的优化涉及内核设计的深层微架构层面，包括寄存器分配、指令流水线调度和负载分布等，表明其具备真正的硬件级推理能力，而非表面代码变换 [11][14][28] - 具体优化案例包括：通过无分支累加器重缩放将非因果注意力吞吐量提升8.1%；通过纠错与张量核心流水线重叠减少硬件空闲；通过跨warp组的寄存器重新平衡进一步压榨出**2.1%**的性能提升 [29] 行业影响与未来展望 - 该研究突破了将大语言模型限制在预设流程中的传统限制，为解决需要深度迭代工程的极致优化问题提供了新范式 [6][7][13] - AVO作为一种不局限于特定领域的进化变异算子，为未来的自动化软件系统优化指明方向，有望在AI芯片、深度学习底层乃至所有对算力有极致要求的科学和工程领域广泛应用 [28]