大模型推理能力提升 - 财报，业绩电话会，研报，新闻 - Reportify

大模型推理能力提升

搜索文档

1.5B刷新数学代码SOTA！快手&清华精细化Token管理，LLM推理能力飙升

量子位· 2025-07-30 17:44

模型创新 - 快手和清华团队开发的Archer方法采用1.5B参数小模型，在数学和代码推理任务上超越同量级SOTA模型[1][3] - 核心创新在于对模型学习过程进行精细化管理，区分知识型（低熵）和推理型（高熵）Token进行差异化训练[2][10] - 该方法通过"双Token约束"机制，实现知识稳定性和推理探索性的平衡，避免传统方法的知识退化或推理受限问题[9][21] 技术实现 - 采用句子级熵统计替代批次级统计，精准识别Token类型（高熵Token如"循环"、"判断"，低熵Token如"123"、"print"）[11][12] - 差异化训练规则：对高熵Token采用松约束（高裁剪阈值+弱KL正则），低熵Token采用紧约束（低裁剪阈值+强KL正则）[17] - 训练效率显著提升，仅需单阶段训练和1900 H800 GPU小时，远低于同类模型16000 H100小时的资源消耗[20] 性能表现 - 数学推理：在AIME24/25等基准测试中，Archer-Math-1.5B平均正确率达59.1%，较原始模型提升18.1%（AIME24）和10.3%（AIME25）[15][18] - 代码生成：在LiveCodeBench v5/v6上平均正确率29.8%，较DAPO方法提升3.4%（v5）和2.6%（v6），成为同量级最佳代码模型之一[16][19] - 全面超越FastCuRL、Nemotron等同量级SOTA模型，验证小模型通过优化训练方法可实现性能突破[18][19] 行业意义 - 突破当前大模型依赖参数规模的增长路径，证明精细化训练管理可释放小模型潜力[1][24] - 开源代码（GitHub链接）推动行业技术共享，可能改变AI研发资源投入方向[4][25] - 方法论适用于数学推理、代码生成等高难度任务，为垂直领域模型优化提供新思路[3][14]

快手(HK:01024)

大模型推理能力提升

精细化Token管理

大模型推理能力提升

精细化Token管理