Workflow
静态经验流
icon
搜索文档
大模型推理上限再突破:「自适应难易度蒸馏」超越R1蒸馏,长CoT语料质量飞升
机器之心· 2025-05-04 12:57
研究团队背景 - 团队来自中兴通讯无线研究院「大模型深潜」团队,核心研究方向包括推理模型构建、无线通信故障定位、多模态推理模型和推理加速技术 [1] - 核心成员毕业于中国科学技术大学、中国科学院软件研究所等知名高校与科研院所 [1] 研究动机 - 大模型如DeepSeek-R1(671B参数)推理能力强大但难以在边缘设备和实时系统中部署 [6] - 业界聚焦参数量低于70亿的小模型研究,尤其在复杂数学解题和代码生成长链推理场景 [7] - 小模型在多步骤推理任务上存在明显瓶颈,难以满足应用需求 [7] 现有CoT数据困局 - 海量数据驱动方法计算与标注成本高、效率低 [8] - 精品数据驱动方法受规模限制,性能增益难以持续 [9] - 现有方法普遍忽视「模型能力—数据难度」动态匹配问题 [10] 核心问题 - 如何定义高质量CoT语料 [11] - 如何从既有数据中提炼可迁移的「静态经验流」 [11] 创新方法 - 首创「LLM自适应题目难度蒸馏」方法,提升高质量CoT语料生产效率与效果 [2] - 基于模型自适应问题难易度蒸馏CoT语料,显著提升长CoT语料质量 [13] - 方法包含四大创新点:题目难度分级体系、自适应题库构建、难度分布采样策略、批量生成高质量CoT语料 [15][16][17][18] 实验效果 - 在AIME24数学竞赛数据集上,各参数档模型准确率相比传统方法提高6.66%–26.7% [18] - ZMath-32B在MATH500上达到94.6%准确率,超过DeepSeek-Distill-32B(89.8%)和Sky-32B-Preview(90%) [37] - ZMath-14B在AIME24上准确率为50%,远超phi4-14B(30%) [37] - ZCode-32B在Easy、Medium、Hard三个难度级别上分别达到96.06%、75.53%、31.85%,全面优于DeepSeek-Distill-32B [38] 方法论贡献 - 构建系统化CoT数据生成与评估流程,为小参数LLM提升链式推理能力提供新路径 [41] - 验证方法灵活,支持数学推理与代码生成任务 [36] - 仅需约2k条高质量CoT样本即可显著提升性能,降低数据与算力成本 [41] 未来工作 - 结合强化学习挖掘深层推理能力 [42] - 扩展至通信故障诊断等更复杂的跨领域任务 [42]