Workflow
VLM智能体
icon
搜索文档
别再花钱请GPT当老师了!GTR-Turbo用「历史经验」自我蒸馏,训练成本砍半,效果反超丨CVPR'26
量子位· 2026-04-03 18:39
GTR-Turbo框架的核心演进 - 核心思想是从依赖外部教师模型的“寻求外援”模式,转变为利用自身历史检查点进行“内生进化” [6][7] - 通过融合训练过程中的历史检查点权重,构建出一个“免费且强大”的内部教师模型,为当前智能体提供步级思维引导 [4][7] - 该方法实现了零成本开销(无需昂贵外部API)、精准指导(贴合当前任务分布)和自适应进化(教师能力随智能体提升) [8][9][10] GTR-Turbo框架的具体流程 - 整体框架延续“思维+动作”联合训练思想,采用“SFT/OPD + RL”模式,以抑制“思维崩塌”现象 [11] - 设计了两种变体:SFT变体通过监督微调融入教师指导;KL变体采用标签蒸馏方式,训练效率更高 [11][15] - 训练中每完成一轮PPO更新即保存模型权重,通过SMA或EMA策略合并检查点以更新教师模型,形成自主的“教学相长”循环 [16] GTR-Turbo的实验性能与效率 - 在Points24卡牌游戏任务中,GTR-Turbo (KL变体)达到53.5%的成功率,相比GTR的44.5%取得近10%的巨大提升,并创下SOTA性能 [17][18] - 在复杂困难的ALFWorld具身智能任务中,GTR-Turbo仅依靠自身探索和思维引导,达到了与依赖外部知识的GTR相同的表现 [19] - 在训练效率上,GTR-Turbo最高可降低50%的训练时间和60%的成本开销,例如在P24任务中,KL变体训练时间从GTR的191小时降至89小时,成本估算从307.78美元降至114.81美元 [4][23][24] GTR-Turbo的行业意义与优势 - 该框架揭示了模型自身蕴含的自监督潜力,证明了通过权重融合机制可以实现“左脚踩右脚”式的性能跃升 [26] - 其闭环、可本地部署的训练模式,解决了依赖强大外部模型带来的可及性、成本及数据隐私问题,具备无法替代的泛用性优势 [4][25] - 为复杂长时任务中构建低成本、高效率的自主进化智能体提供了重要的启发和参考 [27]