Workflow
多轮Agent蒸馏
icon
搜索文档
多轮Agent蒸馏终于不翻车!港中文x通义新方法成功率暴涨18点,训练还快32%
量子位· 2026-05-07 08:28
TCOD团队 投稿 凹非寺 量子位 | 公众号 QbitAI 把强大模型的能力"蒸馏"给小模型,听起来很美—— 但放到多轮对话Agent场景里,效果往往一塌糊涂。 为什么? 香港中文大学联合阿里通义事业群给出了答案,并提出了一种名为 TCOD (Temporal Curriculum On-Policy Distillation)的训练方法。 上图(左)表示在多轮Agent的OPD训练中,随着交互轮次的增加,教师模型对学生生成回复中各token的概率分配持续降低,表明每轮的 KL 散度不断攀升,最终导致监督信号失效。(右)表示原始OPD使用完整轨迹进行训练,因此包含了所有累积的误差;而TCOD-F2B/B2F 则通过课程学习,从短轨迹逐步扩展至长轨迹,有效规避了误差轮次的干扰。) 团队发现失效的根本原因在于 轨迹级KL不稳定性 ,每一轮误差不断累积,把学生模型推到老师模型从未见过的状态区域,老师的监督信号 因此彻底失效。 而TCOD用课程学习的思路,让学生模型从短轨迹开始、循序渐进地学习完整轨迹,一举解决了多轮Agent蒸馏的稳定性难题。 TCOD只需对现有OPD代码做极少改动 On-Policy Disti ...