Workflow
LensLLM
icon
搜索文档
告别盲选LLM!ICML 2025新研究解释大模型选择的「玄学」
机器之心· 2025-07-04 16:59
大语言模型选型挑战 - 开源LLM数量激增(如LLaMA、Falcon、Mistral、DeepSeek),导致特定下游任务选型困难[4] - 传统选型方法计算资源消耗大且泛化能力不足,存在高度不确定性[4] LensLLM理论框架 - 基于PAC-贝叶斯泛化界限,首次揭示LLM微调中测试损失随训练数据量的"相变"动力学[6][11] - 提出双相演进理论:预幂律相(Hessian值高、参数敏感)和幂律相(Hessian值低、稳定性强)[16] - 数学公式量化性能与数据量关系:$L(f_{\hat{w}})\leq(1+\epsilon)\hat{L}(f_{\hat{w}})+C_{3}n^{-\beta_{3}}+O(n^{-\frac{3}{4}})$[10] LensLLM技术优势 - 引入NTK(神经正切核)增强型修正缩放模型,精准捕捉Transformer微调动态[15] - 在三大数据集(FLAN/Wikitext/Gigaword)上RMSE显著低于基准模型: - Wikitext上OPT-6.7B误差0.026 vs 基准0.132(5倍差距)[18] - FLAN数据集误差0.022-0.035 vs 基准0.087-0.15[18] - 计算成本降低88.5%,仅需0.48-0.97×10^21 FLOPs[23] 性能验证 - Gigaword数据集选型准确率91.1%,Pearson相关系数85.8%[21] - Pareto最优曲线显示LensLLM在低FLOPs下保持高相关性[25] - 覆盖14种架构(如OPT/T5/mT5/GPT-2等),误差带更窄[19][20] 应用前景 - 边缘设备部署:快速筛选资源受限场景最优模型[31] - 加速A/B测试周期,降低模型迭代成本[31] - 扩展至多任务场景及MoE架构研究[27]
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025
量子位· 2025-06-18 12:58
VLOG Lab 投稿 量子位 | 公众号 QbitAI 还在靠"开盲盒"选择大模型? 来自弗吉尼亚理工大学的研究人员推出了个选型框架 LensLLM —— 大幅提升选型效果的同时,成本却降低近90%。 众所周知,在大模型如雨后春笋般爆发的时代,选型成了AI工程师和研究员最大的痛点之一: 首度揭示:LLM微调中的"相变"动力学 近几年,大语言模型(LLM)从学术走向产业,从GPT到LLaMA,再到Mistral、DeepSeek,光是名字就让人眼花缭乱。 但选错模型不仅会浪费GPU资源,更可能拖慢产品迭代速度,甚至导致项目失败。 现有方法依赖经验、调参和"玄学",在成本和效果之间很难找到平衡。 而LensLLM正是在这个背景下诞生,其目标是 终结LLM选型"靠感觉"的时代 。 展开来说,LensLLM的理论基础来自一项 全新的PAC-Bayes泛化界限推导 ,首次从数学上揭示了LLM在不同数据规模下微调表现的 非线性 变化规律 ,具体表现为: 模型多如牛毛,怎么选才不会"踩坑"? 而使用LensLLM框架,不仅可以 预测微调后的性能走势 ,还通过全新理论解释了大模型微调中一直难以理解的"玄学现象"。 按照团队 ...