VLM智能体 - 财报，业绩电话会，研报，新闻

VLM智能体

搜索文档

别再花钱请GPT当老师了！GTR-Turbo用「历史经验」自我蒸馏，训练成本砍半，效果反超丨CVPR'26

量子位· 2026-04-03 18:39

GTR-Turbo框架的核心演进 - 核心思想是从依赖外部教师模型的“寻求外援”模式，转变为利用自身历史检查点进行“内生进化” [6][7] - 通过融合训练过程中的历史检查点权重，构建出一个“免费且强大”的内部教师模型，为当前智能体提供步级思维引导 [4][7] - 该方法实现了零成本开销（无需昂贵外部API）、精准指导（贴合当前任务分布）和自适应进化（教师能力随智能体提升） [8][9][10] GTR-Turbo框架的具体流程 - 整体框架延续“思维+动作”联合训练思想，采用“SFT/OPD + RL”模式，以抑制“思维崩塌”现象 [11] - 设计了两种变体：SFT变体通过监督微调融入教师指导；KL变体采用标签蒸馏方式，训练效率更高 [11][15] - 训练中每完成一轮PPO更新即保存模型权重，通过SMA或EMA策略合并检查点以更新教师模型，形成自主的“教学相长”循环 [16] GTR-Turbo的实验性能与效率 - 在Points24卡牌游戏任务中，GTR-Turbo (KL变体)达到53.5%的成功率，相比GTR的44.5%取得近10%的巨大提升，并创下SOTA性能 [17][18] - 在复杂困难的ALFWorld具身智能任务中，GTR-Turbo仅依靠自身探索和思维引导，达到了与依赖外部知识的GTR相同的表现 [19] - 在训练效率上，GTR-Turbo最高可降低50%的训练时间和60%的成本开销，例如在P24任务中，KL变体训练时间从GTR的191小时降至89小时，成本估算从307.78美元降至114.81美元 [4][23][24] GTR-Turbo的行业意义与优势 - 该框架揭示了模型自身蕴含的自监督潜力，证明了通过权重融合机制可以实现“左脚踩右脚”式的性能跃升 [26] - 其闭环、可本地部署的训练模式，解决了依赖强大外部模型带来的可及性、成本及数据隐私问题，具备无法替代的泛用性优势 [4][25] - 为复杂长时任务中构建低成本、高效率的自主进化智能体提供了重要的启发和参考 [27]

多模态智能体

VLM智能体

Artificial Intelligence

GTR-Turbo

多模态智能体

VLM智能体

Artificial Intelligence

GTR-Turbo