基于Rubric Reward的Agentic RL - 财报，业绩电话会，研报，新闻

基于Rubric Reward的Agentic RL

搜索文档

32B逆袭GPT-5.2：首个端到端GPU编程智能体框架StitchCUDA问世

机器之心· 2026-03-05 11:54

行业技术突破 - 现有基于LLM的CUDA代码生成方法主要聚焦于优化单个Kernel，但在涉及完整模型架构的端到端GPU程序生成任务上表现不佳，现有方法在KernelBench Level 3任务上成功率低[4] - 端到端GPU程序性能由算子融合、Launch配置、CPU-GPU同步、数据搬运等系统级因素共同决定，这超出了单Kernel优化的范畴[4] - StitchCUDA实现了从优化单个Kernel到生成完整端到端GPU程序的根本性转向，在KernelBench Level 3任务上实现了90%的成功率和1.50倍的平均加速比[2] 核心方法框架 - StitchCUDA的核心方法包含多智能体协作框架与基于Rubric Reward的Agentic RL两大模块[9] - 多智能体框架将任务分解为Planner（规划器）、Coder（编码器）和Verifier（验证器）三个专门Agent，通过迭代式“计划—编码—分析—优化”循环协作[12] - Planner负责解析参考代码、进行性能分析并制定包含Kernel效率和Host端编排的系统级分解计划[12] - Coder负责根据Planner的规划逐个子任务生成并编译CUDA实现，并根据Verifier的反馈进行迭代优化[12] - Verifier负责正确性验证和性能分析，使用Nsys识别系统级瓶颈，使用NCU分析具体Kernel瓶颈，并生成优化建议[13] - Planner和Verifier集成了RAG模块，可从NVIDIA官方文档检索最新API规范和指南，避免LLM知识过时[13] 训练方案创新 - 为提升Coder的编程能力，StitchCUDA引入了一种创新的Agentic RL训练方案，将昂贵的多轮交互分解为“从零生成”和“反馈驱动优化”两个原子技能进行单轮RL训练[14][16] - 通过原子技能分解，训练一个基于Qwen-32B的Coder仅需约160 H200-Hour，相比多轮Agentic RL减少了约60-75倍计算开销[16][32] - 该方法引入了由CUDA专家设计的Rubric Reward（评分准则奖励），从反作弊、工程质量、算子覆盖、技能遵循四个维度对生成代码进行综合评估，以解决Reward Hacking和模型行为退化问题[18][24][32] - Rubric Reward采用语义级评估，避免了依赖硬编码格式规则导致的误判或漏判困境[25] 性能评估结果 - 在KernelBench Level 3端到端任务上，StitchCUDA在H200硬件上取得了9/10的正确率、1.50倍平均加速比和70%的Fast1比例，全面领先于基线方法[21] - 在H200上，StitchCUDA对比前沿LLM GPT-5.2（正确率20%，加速比0.48倍）和多智能体基线CUDAForge（正确率60%，加速比0.87倍）有显著提升[10] - 在H200上，StitchCUDA对比RL模型基线Kevin-32B（正确率20%，加速比0.34倍）展现出巨大优势[10] - 多智能体框架本身能大幅提升端到端正确性，例如将Qwen3-32B在Level 3上的表现从0/10提升至3/10[22] - Agentic RL是实现系统级加速的关键，在Level 3上将使用Qwen-32B的Coder正确率从3/10提升至9/10，加速比从0.24倍提升至1.50倍[22] - Agentic RL带来的能力提升是模型规模难以替代的，即使使用GPT-5.2作为所有Agent的变体，在Level 3上表现仍不及使用经RL训练的Qwen-32B作为Coder的完整StitchCUDA[22] - StitchCUDA在H200上对比启用torch.compile的参考代码仍实现了1.29倍的加速，表明其手动系统级优化能超越编译器自动优化[23] - 案例显示，在GPT-2 Transformer Block任务中，StitchCUDA通过混合精度、连续数据布局、cuBLASLt Epilogue融合等协同优化实现了3.75倍加速比[29] 有效性验证 - Rubric Reward有效解决了Reward Hacking问题，将Hacking率从基线模型Kevin-32B的52%降至16%，并将完全Hacking次数从4次降至0次[26] - 消融实验表明，去除Rubric Reward后，Level 3任务成功率从90%降至50%，平均加速比从1.50倍大幅降至0.46倍，验证了其关键作用[27] - 原子技能分解的RL训练方案相比多轮Agentic RL，计算开销降低了约60-75倍[16][32]

端到端GPU编程

多智能体框架

基于Rubric Reward的Agentic RL

基于Rubric Reward的Agentic RL

Reward Hacking

StitchCUDA

Claude-4-sonnet