Nvidia-刚刚，英伟达革了自己的命：智能体自主进化7天，干掉所有算子工程师、GPU专家

研究背景与核心创新 - 英伟达提出了一种名为智能体式变异算子（Agentic Variation Operators, AVO）的新型进化变异算子，它用自主编码智能体取代了经典进化搜索中固定的变异、交叉和人工设计的启发式方法 [2] - 该研究旨在解决传统基于大语言模型（LLM）的进化搜索的局限，即LLM被限制在预设流程中仅作为候选解生成器，无法主动查阅资料、测试、解读反馈或修正方案，这对于需要深度迭代的顶级硬件优化任务尤为致命 [5][10] - AVO将深度智能体提升为变异算子本身，使其成为一个自我驱动的智能体循环，能够自主决定查阅内容、修改对象及评估时机，实现长周期内的持续改进，从而将AI从被动的“代码生成器”转变为掌握全局的“进化操盘手” [6][7][10][12] 技术验证与性能表现 - 研究将AVO应用于NVIDIA Blackwell B200 GPU上的多头注意力（MHA）内核优化，在无需人工干预、连续7天的自主演化中，智能体探索了超过500个优化方向，演化出40个内核版本 [9][16] - 最终生成的MHA内核在BF16精度下达到了最高1668 TFLOPS的吞吐量，在测试配置中性能超越英伟达官方cuDNN库高达3.5%，超越目前最前沿的开源基准FlashAttention-4高达10.5% [9][14][19] - 研究证明了优化技术的强大泛化能力：智能体仅需30分钟的额外自主适配，即可将演化版MHA内核迁移至分组查询注意力（GQA），其性能相比cuDNN提升高达7.0%，相比FlashAttention-4提升高达9.3% [9][18][23] 优化深度与硬件级推理 - 分析表明，智能体发现的优化涵盖了内核设计的多个层面，包括寄存器分配、指令流水线调度和负载分布，反映了真正的硬件级推理，而非表层的代码变换 [9][14][24] - 具体优化案例包括：通过消除条件分支和替换轻量级内存屏障，使非因果注意力吞吐量一次性提升8.1%；重新组织执行流水线以实现张量核心计算重叠，减少硬件空闲等待时间；通过分析性能数据，对Blackwell的2048个寄存器预算进行重新分配，进一步榨取2.1%的性能提升 [25] - 该研究证明AI智能体已具备处理多硬件子系统（如同步、内存排序、流水线调度和寄存器分配）联合推理的能力，为未来的自动化软件系统优化指明了方向 [24] 行业意义与未来展望 - 研究人员将这种方法称为“盲编程”，即开发完全自动化、无需人工干预的系统，并断言“盲编程是软件工程的未来”，因为人类认知能力是瓶颈 [3] - AVO作为一种不局限于特定领域的进化变异算子，不仅可用于AI芯片和深度学习底层生态的开发，未来更有望在所有对算力有极致苛求的科学和工程领域中大展拳脚 [24] - 这项研究被评价为“超人类智能在软件领域的真正首次展露”，其表现可能会对现有的内核/领域特定语言（DSL）开发产生深远影响 [1][2]