Value-Driven Memory
搜索文档
AI写CUDA算子准确率92%,到国产芯片只剩4%?上交方法直线拉升,DeepSeek也适用
机器之心· 2026-03-26 14:47
文章核心观点 - 上海交通大学团队提出的EvoKernel框架,通过价值驱动记忆和自演化智能体方法,有效解决了AI大模型在数据稀缺的国产NPU(如华为昇腾)算子开发上的“冷启动”难题,显著提升了代码生成的正确率和性能,展现了从“依赖专家”到“系统能力”的转变潜力 [2][5][34] 技术方案与核心设计 - EvoKernel框架的核心是**价值驱动记忆**,它不同于传统相似度检索,能学习在不同阶段(如生成、精炼)应优先调用哪些历史经验,从而更有效地利用记忆 [8][9] - 框架分为**冷启动生成**和**持续改善**两个连续阶段,首先生成可编译运行的正确算子初稿,然后进行持续的性能优化 [6][13] - 系统配备了严格的多层验证机制,包括反作弊检查、编译验证、正确性校验和延迟测量,确保只有真实有效的代码才能进入记忆库,驱动智能迭代 [11] 性能提升结果 - 在昇腾NPU的Ascend C算子开发任务上,EvoKernel将GPT-5.2模型的整体正确率从**4.0%** 大幅提升至**83.0%**,整体编译率从**11.0%** 提升至**98.5%** [2][14] - 在更难的Level 2任务上,实现了**100%** 的编译率和**76%** 的正确率 [14] - 对比实验中,在相同30次预算下,EvoKernel(整体正确率83.0%)显著优于Codex智能体(46.0%正确率)和传统精炼基线(22.0%正确率) [15] 持续优化能力 - EvoKernel不仅生成正确代码,还能持续优化性能。在找到首个正确版本后,通过精炼将算子的**中位数速度提升至3.60倍**,四分位区间为1.38倍到10.05倍 [19] - 部分算子经过优化后,相对首个正确版本的加速比甚至超过**200倍** [19] - 在DeepSeek mHC架构的算子上,EvoKernel成功实现了SinkhornKnopp算子**41.96倍**的加速,最快的算子比PyTorch基线快了**42倍** [2][28] 经验迁移与泛化能力 - EvoKernel的记忆具备**跨任务迁移能力**。先在简单任务(L1)积累经验再迁移到难任务(L2),其正确率上升速度远快于从零开始,在第17次迭代时L2正确率已达**64%** [25] - 记忆库具备**跨模型迁移能力**。用GPT-5.2构建的记忆库,能将DeepSeek-V3.2在测试集上的编译率从**26%** 提升至**80%**,正确率从**6%** 提升至**58%**;对Qwen3-Coder-30B也有类似提升效果 [25] 在真实工程场景的扩展 - 在从开源社区筛选的、更贴近真实需求的70个Attention类算子测试集上,EvoKernel在昇腾平台上取得了**100%** 编译率和**78.6%** 的正确率 [27][28] - 该方法已成功应用于DeepSeek最新发布的mHC架构的15个相关算子,成功获得10个正确实现,展示了其对新算子族和新架构模式的适配能力 [28][30] 行业意义与前景 - 该方案解决了在目标领域**公开数据几乎为零、专家稀缺**情况下的技能习得问题,为通用大模型在数据稀缺但反馈严格的领域掌握新技能提供了可行路径 [2][33] - 随着硬件生态分化,快速适配新架构、新领域专用语言的能力变得稀缺,EvoKernel有望将这种能力从“依赖少数专家”转变为“可被记忆、检索和持续放大的系统能力” [34] - 该工作已在昇腾AI创新大赛2025全国总决赛中斩获金奖,并获得华为计算相关计划支持,显示了其应用潜力与产业认可度 [2]