一招缓解LLM偏科！调整训练集组成，“秘方”在此

核心观点 - 上海交大与上海AI Lab联合团队提出的IDEAL方法通过科学调整SFT训练集组成，显著缓解LLM多任务训练中的"偏科"现象，提升模型综合性能 [3][4] - 该方法基于数学建模量化不同领域数据对最终性能的影响，优化训练集配比，而非简单增加弱势领域数据量 [4][5] - 实验显示IDEAL使Llama 3.1-8B原本较弱的代码能力获得明显提升，且在多个领域benchmark上均实现平均性能优化 [2][10][11] 方法原理 - 问题建模：引入变量β显式建模训练集优化问题，目标是最小化验证集损失函数，公式包含参数二阶矩阵逆运算 [5][7] - 高效计算：采用K-FAC理论近似简化Hessian矩阵逆运算，筛选模型"重要层"参数降低计算量，通过超参数m控制调整比例 [8] - 配比优化：数据分布配比比数据量更关键，不当配比下增加数据量或训练epoch会放大负面冲突 [6][15] 实验结果 - 领域覆盖：在4领域4 benchmark和5领域8 benchmark测试中，IDEAL均优于人工经验配比，验证其普适性 [11] - 参数选择：超参数m推荐值为0.15，过小影响优化效果，过大偏离原始分布 [15] - 对比基线：相比DoReMi和DOGE等re-weighting方法，IDEAL在同等数据量下性能提升更显著 [15] 应用价值 - 自动化解决高质量多领域数据配比问题，替代人工经验调整，具有工程实用价值 [14] - 为LLM多任务训练提供理论框架，指导数据集的科学构建与优化 [4][5]