Workflow
LensLLM
icon
搜索文档
告别盲选LLM!ICML 2025新研究解释大模型选择的「玄学」
机器之心· 2025-07-04 16:59
大语言模型选型挑战 - 开源LLM数量激增(如LLaMA、Falcon、Mistral、DeepSeek),导致特定下游任务选型困难[4] - 传统选型方法计算资源消耗大且泛化能力不足,存在高度不确定性[4] LensLLM理论框架 - 基于PAC-贝叶斯泛化界限,首次揭示LLM微调中测试损失随训练数据量的"相变"动力学[6][11] - 提出双相演进理论:预幂律相(Hessian值高、参数敏感)和幂律相(Hessian值低、稳定性强)[16] - 数学公式量化性能与数据量关系:$L(f_{\hat{w}})\leq(1+\epsilon)\hat{L}(f_{\hat{w}})+C_{3}n^{-\beta_{3}}+O(n^{-\frac{3}{4}})$[10] LensLLM技术优势 - 引入NTK(神经正切核)增强型修正缩放模型,精准捕捉Transformer微调动态[15] - 在三大数据集(FLAN/Wikitext/Gigaword)上RMSE显著低于基准模型: - Wikitext上OPT-6.7B误差0.026 vs 基准0.132(5倍差距)[18] - FLAN数据集误差0.022-0.035 vs 基准0.087-0.15[18] - 计算成本降低88.5%,仅需0.48-0.97×10^21 FLOPs[23] 性能验证 - Gigaword数据集选型准确率91.1%,Pearson相关系数85.8%[21] - Pareto最优曲线显示LensLLM在低FLOPs下保持高相关性[25] - 覆盖14种架构(如OPT/T5/mT5/GPT-2等),误差带更窄[19][20] 应用前景 - 边缘设备部署:快速筛选资源受限场景最优模型[31] - 加速A/B测试周期,降低模型迭代成本[31] - 扩展至多任务场景及MoE架构研究[27]
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025
量子位· 2025-06-18 12:58
大模型选型框架LensLLM - 核心创新:提出理论驱动的选型框架LensLLM,通过数学建模预测微调性能,选型成本降低近90%[1][3][26] - 理论基础:基于PAC-Bayes泛化界限推导,首次揭示LLM微调中的非线性"相变"现象(预幂律相→幂律相)[9][13][14] - 技术实现:采用神经切线核(NTK)增强的缩放律模型,仅需极少量数据即可预测完整微调曲线[18][19][20] 性能验证 - 数据集表现:在FLAN/Wikitext/Gigaword数据集上,RMSE误差最低达基线方法的1/5,Pearson相关系数全面领先[22][23][24] - 模型覆盖:测试含OPT-1.3B、GPT-2、T5-base等13种模型,预测测试损失误差范围0.17-0.36(vs基线0.87-1.50)[21][24] - 效率突破:渐进式采样机制使计算成本比FullTuning降低88.5%,选型准确率保持91.1%[26][27] 应用场景 - 工业部署:适用于边缘设备选型、A/B测试加速,显著缩短模型迭代周期[28] - 扩展方向:计划支持多任务环境及MoE模型结构,构建通用选型系统[28] - 学术认可:研究成果被ICML 2025收录,已开源代码[4][28]