AAAI 2026｜AP2O-Coder 让大模型拥有「错题本」，像人类一样按题型高效刷题

文章核心观点 - 针对开源大语言模型生成代码存在运行时错误、调试成本高的问题，提出了一种名为自适应渐进式偏好优化（AP2O）的新方法，并构建了AP2O-Coder框架 [2][3] - 该方法借鉴人类“按题型高效刷题”的学习模式，通过“考试-分析-纠错-小测”的系统性流程，旨在提升模型代码纠错能力，并在多款主流开源模型上实现了最高3%的pass@k性能提升，同时降低了训练数据需求量 [3] 现有方法的核心挑战与针对性设计 - 现有基于偏好优化的方法（如DPO）在代码纠错任务中面临三大挑战：错误类型感知缺失、训练聚焦性不足、动态适配能力薄弱 [5][12] - 错误类型感知缺失：仅依赖单元测试的二元反馈，无法知晓具体错误类型（如KeyError、ValueError），导致模型难以定位错误原因 [5] - 训练聚焦性不足：训练数据随机打乱输入，模型需在多种错误类型间频繁切换，纠错学习针对性不强 [12] - 动态适配能力薄弱：静态构建的训练集无法匹配模型训练过程中不断变化的能力短板，易引发灾难性遗忘或资源浪费 [12] - AP2O-Coder针对性地借鉴人类“错题整理-专题突破-定期复盘”的学习模式，构建了包含四大核心模块的优化框架 [6] AP2O-Coder的核心技术框架与工作机制 - 框架包含四个关键步骤：代码生成评估（Exam）、错误诊断分析（Analysis）、渐进式偏好优化（Correction）、自适应错误回放（Quiz） [8] - 代码生成评估（Exam）：为掌握模型初始能力边界，让LLM在M个编程任务上生成N个候选答案，通过单元测试获取“通过/失败”标签，形成初始数据集 [10] - 错误诊断分析（Analysis）：使用编程语言专用分析工具对失败答案进行结构化解析，标注具体错误类型并统计频率，构建结构化的“错题本” [11] - 渐进式偏好优化（Correction）：基于错题本设计差异化优化顺序，对小参数模型（如0.5B）采用“低频错误->高频错误”（L2H）路径，对大参数模型（如34B）采用“高频错误->低频错误”（H2L）策略，通过构建DPO滑动窗口分阶段集中优化特定错误 [13] - 自适应错误回放（Quiz）：定期在小验证集上评估模型性能，实时捕捉当前高频错误类型，将对应失败答案重新纳入训练，动态调整训练数据分布以聚焦能力短板 [14] 实验验证与结果分析 - 研究在6款主流LLM上进行了系统验证，包括代码专用模型（CodeLlama、DeepSeek-Coder、Qwen2.5-Coder）与通用模型（Llama3、Qwen2.5、Qwen3），参数规模覆盖0.5B至34B，实验基准包括EvalPlus（HumanEval/MBPP）与LiveCodeBench v6 [16] - 性能提升有效性：AP2O-Coder在不同类型与规模的模型上均展现出稳定性能改进，在EvalPlus（HumanEval）基准上，AP2O-Coder (H2L) 即使对30B+大参数模型也能实现2.8%至3.4%的性能优化，且未出现性能退化现象 [16] - 错误抑制效果与泛化能力：相较于SFT、DPO等基线方法，AP2O-Coder能有效降低各类错误发生频率，且未引入新错误类型，在Qwen2.5-Coder-7B实验中，高频错误“WrongResult”发生率显著下降，IndexError等小众错误在训练后期实现清零，同时在pass@5、pass@10指标上的稳定提升表明其增强了模型代码生成的泛化能力 [22] - 样本效率优化：AP2O-Coder通过错误类型的精准聚焦，显著提升了训练数据利用效率，仅需4%至60%的偏好数据即可达到传统DPO方法的最优性能，在32B参数规模模型上数据需求量减少更为明显 [25] - 通用LLM适配性：AP2O-Coder不仅适用于代码专用LLM，也能有效支持通用LLM向代码领域适配，在Qwen3、Llama3等通用模型的实验中，经过该方法优化后，模型在MBPP基准上的pass@1分数显著提升 [28] 研究发现与方法特性 - 对于Qwen2.5-Coder，小参数模型（≤ 3B）采用“低频错误->高频错误”（L2H）优化顺序更具优势，可避免模型因能力有限陷入高频常见错误的学习困境 [31] - 大参数模型（≥ 7B）采用“高频错误->低频错误”（H2L）顺序效果更优，能够充分发挥其强学习能力，快速实现整体错误率的下降 [31]