多轮Agent蒸馏终于不翻车！港中文x通义新方法成功率暴涨18点，训练还快32%

文章核心观点 - 香港中文大学与阿里通义团队提出了一种名为TCOD（时序课程在线蒸馏）的新训练方法，旨在解决将强大模型能力“蒸馏”给小型模型时，在多轮对话Agent场景中出现的性能崩溃问题 [2] - 该方法的核心创新在于采用课程学习的思路，让学生模型从学习短轨迹开始，逐步过渡到学习完整的长轨迹，从而有效抑制了传统在线蒸馏方法中因误差累积导致的监督信号失效问题 [5][13] - TCOD方法不仅显著提升了小模型在多轮交互任务中的成功率（例如将Qwen3-1.7B模型的平均成功率从0.17%提升至18%以上），还能提升更大模型的性能、提高训练效率，并展现出良好的泛化能力，甚至能让学生模型完成教师模型无法完成的任务 [24][26][33][37] 技术问题与发现 - 传统在线蒸馏方法在多轮Agent任务（如ALFWorld、WebShop）中直接失效，表现为学生模型的任务成功率崩塌至接近零 [7][8] - 失效的根本原因是“轨迹级KL不稳定性”，即多轮交互中每一轮的误差会不断累积，导致学生模型的状态偏离教师模型的经验范围，从而使教师提供的监督信号（KL散度）失效 [4] - 在ALFWorld基准测试中，使用传统OPD方法训练时，随着训练进行，KL散度持续攀升，同时任务成功率出现崩塌 [9] TCOD方法原理 - TCOD采用课程学习策略，核心思路是避免让学生模型一开始就独立处理完整的长轨迹，而是从短轨迹开始循序渐进地学习 [13] - 方法具体有两种变体：F2B（前向到后向），即学生先负责前几步，再逐步接管后续步骤；B2F（后向到前向），即教师先引导至接近终点的状态，学生只负责最后几步，再逐渐向前延伸 [14][16] - 该方法只需对现有在线蒸馏的代码进行极少的改动即可实现 [6][17] 性能提升效果 - 在Qwen3-1.7B小模型上，传统OPD训练后的平均成功率仅为0.17%，而使用TCOD后，平均成功率直接拉升至18%以上，提升幅度超过18个百分点 [22][24] - 在更大的Qwen2.5-3B学生模型上，于ALFWorld的Valid Unseen测试集上，传统OPD成功率为60.45%，而TCOD-F2B成功率达到79.19%，提升了18.74个百分点，同时将完成任务所需的平均行动步数压缩了2.97步 [26][27] - 在专门构建的“Hard测试集”（教师模型自身成功率仅6.61%）上，经TCOD-B2F训练的Qwen2.5-7B学生模型成功率达到了20.66%，反超教师模型14个百分点 [32][33] 训练效率与鲁棒性 - TCOD-F2B和B2F变体比传统Vanilla OPD减少了约32%的总训练时间，因为课程学习早期阶段只需处理短轨迹，数据收集更快 [36][37] - 该方法对超参数（如课程扩展速率η）具有强鲁棒性，参数在{2,4,6}之间变动时，成功率波动不超过2%，几乎无需调参即可使用 [39] 行业意义与前景 - TCOD展现的“从短到长、循序渐进”学习模式，更接近人类的学习方式，即在简单场景中掌握技能后再挑战复杂任务 [40][41] - 这类时序课程机制未来很可能成为训练长程、复杂Agent模型的标准组件 [42]