Workflow
Meta超级智能实验室又发论文,模型混一混,性能直接SOTA

文章核心观点 - 提出一种名为类专家Soup(SoCE)的系统化模型融合方法,该方法通过非均匀加权平均来最大化大语言模型的整体性能,相比传统的均匀平均方法效果更优 [1][2] - SoCE方法基于不同基准类别间模型性能呈现弱相关性的关键观察,通过为每个弱相关类别簇挑选专家模型并进行优化加权融合,以结合模型的互补能力 [2][5][8] - 实验结果表明,SoCE方法在多个基准测试中显著提升了模型效果与稳健性,并取得了新的SOTA成绩 [2][14][16] 方法介绍 - SoCE方法的核心洞见是基准测试中不同类别的模型表现呈现高度异质的相关结构,例如在Berkeley Function Calling Leaderboard中,多轮任务间相关性极高(0.96到0.98),而其他类别间相关性可低至0.07 [5][8] - 方法流程包含四个关键步骤:相关性分析以识别弱相关类别对、专家模型选择根据性能排名为每个类别挑选最佳模型、权重优化寻找最大化整体性能的加权方案、加权模型融合得到最终模型 [9][11] - 权重优化阶段在一组统一的权重范围内进行搜索,对每个模型的权重从0.1到0.9以0.1为步长遍历所有可能的权重组合 [9] 实验 - 在70B参数模型上,SoCE在BFCL基准取得80.68%的准确率,相比此前最佳单模型xLAM-2-70b-fc-r(78.56%)提升2.7%,最优权重配置为xLAM-2-70b-fc-r(0.5)、CoALM-70B(0.2)和watt-tool-70B(0.3) [14][15] - 在8B参数模型上,SoCE达到76.50%的准确率,超越此前8B模型xLAM-2-8b-fc-r,相对提升达5.7%,最优权重配置为xLAM-2-8b-fc-r(0.7)、ToolACE-2-8B(0.2)和watt-tool-8B(0.1) [16][18] - 在MGSM基准上,SoCE取得51.7%的准确率,优于所有候选模型及均匀平均方法(47.8%),在其他基准如o Bench上也达到28.0%的准确率,优于均匀平均的27.44% [16][19] - 系统性评估表明,模型Souping后类别间线性相关性显著提升,且在37项实验中的35项里,Soup后模型在36个类别中有超过20个类别的指标得分更高,所有类别净性能增益均为正 [22][23][25]