Workflow
大模型推理能力提升
icon
搜索文档
1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升
量子位· 2025-07-30 17:44
模型创新 - 快手和清华团队开发的Archer方法采用1.5B参数小模型,在数学和代码推理任务上超越同量级SOTA模型[1][3] - 核心创新在于对模型学习过程进行精细化管理,区分知识型(低熵)和推理型(高熵)Token进行差异化训练[2][10] - 该方法通过"双Token约束"机制,实现知识稳定性和推理探索性的平衡,避免传统方法的知识退化或推理受限问题[9][21] 技术实现 - 采用句子级熵统计替代批次级统计,精准识别Token类型(高熵Token如"循环"、"判断",低熵Token如"123"、"print")[11][12] - 差异化训练规则:对高熵Token采用松约束(高裁剪阈值+弱KL正则),低熵Token采用紧约束(低裁剪阈值+强KL正则)[17] - 训练效率显著提升,仅需单阶段训练和1900 H800 GPU小时,远低于同类模型16000 H100小时的资源消耗[20] 性能表现 - 数学推理:在AIME24/25等基准测试中,Archer-Math-1.5B平均正确率达59.1%,较原始模型提升18.1%(AIME24)和10.3%(AIME25)[15][18] - 代码生成:在LiveCodeBench v5/v6上平均正确率29.8%,较DAPO方法提升3.4%(v5)和2.6%(v6),成为同量级最佳代码模型之一[16][19] - 全面超越FastCuRL、Nemotron等同量级SOTA模型,验证小模型通过优化训练方法可实现性能突破[18][19] 行业意义 - 突破当前大模型依赖参数规模的增长路径,证明精细化训练管理可释放小模型潜力[1][24] - 开源代码(GitHub链接)推动行业技术共享,可能改变AI研发资源投入方向[4][25] - 方法论适用于数学推理、代码生成等高难度任务,为垂直领域模型优化提供新思路[3][14]