多轮Agent蒸馏 - 财报，业绩电话会，研报，新闻 - Reportify

多轮Agent蒸馏

搜索文档

多轮Agent蒸馏终于不翻车！港中文x通义新方法成功率暴涨18点，训练还快32%

量子位· 2026-05-07 08:28

TCOD团队投稿凹非寺量子位 | 公众号 QbitAI 把强大模型的能力"蒸馏"给小模型，听起来很美—— 但放到多轮对话Agent场景里，效果往往一塌糊涂。为什么？香港中文大学联合阿里通义事业群给出了答案，并提出了一种名为 TCOD （Temporal Curriculum On-Policy Distillation）的训练方法。上图（左）表示在多轮Agent的OPD训练中，随着交互轮次的增加，教师模型对学生生成回复中各token的概率分配持续降低，表明每轮的 KL 散度不断攀升，最终导致监督信号失效。（右）表示原始OPD使用完整轨迹进行训练，因此包含了所有累积的误差；而TCOD-F2B/B2F 则通过课程学习，从短轨迹逐步扩展至长轨迹，有效规避了误差轮次的干扰。）团队发现失效的根本原因在于轨迹级KL不稳定性，每一轮误差不断累积，把学生模型推到老师模型从未见过的状态区域，老师的监督信号因此彻底失效。而TCOD用课程学习的思路，让学生模型从短轨迹开始、循序渐进地学习完整轨迹，一举解决了多轮Agent蒸馏的稳定性难题。 TCOD只需对现有OPD代码做极少改动 On-Policy Disti ...

多轮Agent蒸馏

Artificial Intelligence

TCOD (Temporal Curriculum On-Policy Distillation)

多轮Agent蒸馏

Artificial Intelligence

TCOD (Temporal Curriculum On-Policy Distillation)