算法核心创新 - 腾讯优图实验室开源强化学习算法SPEAR,通过“自我模仿+渐进探索”实现熵稳定的学习过程 [2][3] - 算法核心是让大语言模型驱动的智能体在无需大量专家示范的情况下自学成才,解决了传统自我模仿学习中的“熵塌缩”和“熵爆炸”问题 [3][8][9] - 采用“课程式调度”实现分阶段探索,前期用内在奖励鼓励探索,后期启动自模仿学习回放高回报轨迹 [15][16] 性能提升表现 - 在ALFWorld家务模拟任务中成功率高达88.9%,创下该任务当前最优水平 [21] - 在WebShop网页购物测评中,1.5B模型成功率从56.8%提升至77.5%,提升20.7个百分点,训练时间仅增加5% [21][22] - 在AIME25奥赛数学任务上,Qwen2.5-32B模型成绩从54.0%提升到60.1%,仅用16K上下文就追平32K推理效果 [13][26] - 在Sokoban视觉推箱子任务中取得86.7%的成功率,较此前最佳性能提升19.6个百分点 [28][29] 技术实现特点 - 设计内在奖励实现工具奖励衰减,前200步鼓励工具调用,之后奖励置零让位给最终答案准确率 [12][18] - 提出优势重校准机制,用动态中位数基线淘汰过时操作,减小off-policy偏差 [16] - 兼容GRPO/GiGPO等骨干方法,可零成本接入现有训练流程 [24][31] 应用场景广度 - 算法通吃文本、代码、视觉多模态任务,在ALFWorld、WebShop、AIME、Sokoban等基准上平均提升16%以上 [3][21][26][28] - 在工业级增强基线Dr.BoT基础上进一步优化,在GRPO和GiGPO框架下均实现显著提升 [19][25] - 1.5B模型1小时上手,32B模型一周出模,具备高效训练特性 [32]
腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入