Workflow
基于Rubric Reward的Agentic RL
icon
搜索文档
32B逆袭GPT-5.2:首个端到端GPU编程智能体框架StitchCUDA问世
机器之心· 2026-03-05 11:54
行业技术突破 - 现有基于LLM的CUDA代码生成方法主要聚焦于优化单个Kernel,但在涉及完整模型架构的端到端GPU程序生成任务上表现不佳,现有方法在KernelBench Level 3任务上成功率低[4] - 端到端GPU程序性能由算子融合、Launch配置、CPU-GPU同步、数据搬运等系统级因素共同决定,这超出了单Kernel优化的范畴[4] - StitchCUDA实现了从优化单个Kernel到生成完整端到端GPU程序的根本性转向,在KernelBench Level 3任务上实现了90%的成功率和1.50倍的平均加速比[2] 核心方法框架 - StitchCUDA的核心方法包含多智能体协作框架与基于Rubric Reward的Agentic RL两大模块[9] - 多智能体框架将任务分解为Planner(规划器)、Coder(编码器)和Verifier(验证器)三个专门Agent,通过迭代式“计划—编码—分析—优化”循环协作[12] - Planner负责解析参考代码、进行性能分析并制定包含Kernel效率和Host端编排的系统级分解计划[12] - Coder负责根据Planner的规划逐个子任务生成并编译CUDA实现,并根据Verifier的反馈进行迭代优化[12] - Verifier负责正确性验证和性能分析,使用Nsys识别系统级瓶颈,使用NCU分析具体Kernel瓶颈,并生成优化建议[13] - Planner和Verifier集成了RAG模块,可从NVIDIA官方文档检索最新API规范和指南,避免LLM知识过时[13] 训练方案创新 - 为提升Coder的编程能力,StitchCUDA引入了一种创新的Agentic RL训练方案,将昂贵的多轮交互分解为“从零生成”和“反馈驱动优化”两个原子技能进行单轮RL训练[14][16] - 通过原子技能分解,训练一个基于Qwen-32B的Coder仅需约160 H200-Hour,相比多轮Agentic RL减少了约60-75倍计算开销[16][32] - 该方法引入了由CUDA专家设计的Rubric Reward(评分准则奖励),从反作弊、工程质量、算子覆盖、技能遵循四个维度对生成代码进行综合评估,以解决Reward Hacking和模型行为退化问题[18][24][32] - Rubric Reward采用语义级评估,避免了依赖硬编码格式规则导致的误判或漏判困境[25] 性能评估结果 - 在KernelBench Level 3端到端任务上,StitchCUDA在H200硬件上取得了9/10的正确率、1.50倍平均加速比和70%的Fast1比例,全面领先于基线方法[21] - 在H200上,StitchCUDA对比前沿LLM GPT-5.2(正确率20%,加速比0.48倍)和多智能体基线CUDAForge(正确率60%,加速比0.87倍)有显著提升[10] - 在H200上,StitchCUDA对比RL模型基线Kevin-32B(正确率20%,加速比0.34倍)展现出巨大优势[10] - 多智能体框架本身能大幅提升端到端正确性,例如将Qwen3-32B在Level 3上的表现从0/10提升至3/10[22] - Agentic RL是实现系统级加速的关键,在Level 3上将使用Qwen-32B的Coder正确率从3/10提升至9/10,加速比从0.24倍提升至1.50倍[22] - Agentic RL带来的能力提升是模型规模难以替代的,即使使用GPT-5.2作为所有Agent的变体,在Level 3上表现仍不及使用经RL训练的Qwen-32B作为Coder的完整StitchCUDA[22] - StitchCUDA在H200上对比启用torch.compile的参考代码仍实现了1.29倍的加速,表明其手动系统级优化能超越编译器自动优化[23] - 案例显示,在GPT-2 Transformer Block任务中,StitchCUDA通过混合精度、连续数据布局、cuBLASLt Epilogue融合等协同优化实现了3.75倍加速比[29] 有效性验证 - Rubric Reward有效解决了Reward Hacking问题,将Hacking率从基线模型Kevin-32B的52%降至16%,并将完全Hacking次数从4次降至0次[26] - 消融实验表明,去除Rubric Reward后,Level 3任务成功率从90%降至50%,平均加速比从1.50倍大幅降至0.46倍,验证了其关键作用[27] - 原子技能分解的RL训练方案相比多轮Agentic RL,计算开销降低了约60-75倍[16][32]