Qwen2.5模型
搜索文档
MIT新研究:大模型加噪声就能替代GRPO/PPO调参
量子位· 2026-03-16 14:11
核心观点 - 一项来自MIT的研究提出,无需复杂的梯度优化或强化学习调参,只需向预训练大语言模型的权重添加高斯噪声并进行集成,其性能即可比肩甚至超越GRPO、PPO等经典调参算法[1][3][7] - 该研究揭示了“神经丛林”现象,即经过海量多任务预训练的模型,其权重周围密集地存在着大量擅长不同特定任务的“专家模型”[6][9][26] - 基于此发现提出的RandOpt算法,通过“随机扰动+集成投票”的简单两步,在多项任务上取得了与专业调参方法相当甚至更优的效果,且模型越大效果越好[7][8][28] 研究发现的“神经丛林”现象 - 预训练模型的权重空间内,能解决不同任务的模型并非零散分布,而是像灌木丛一样密集地“长”在预训练权重附近[6][9] - 因此,理论上无需复杂训练,只需在预训练权重附近进行参数扰动,就有机会找到表现不错的任务专家[10] - 这种现象的关键成因在于大模型的海量多任务预训练,单一任务预训练或无预训练的模型周围不会出现此现象[25][26][27] - 模型规模越大,其权重周围的“高精度区域”或有效扰动就越密集,随机扰动找到有效改进方案的概率越高[16][17] - 随机扰动产生的“专家”是“偏科”的,即一个改动可能提升模型在数学推理上的表现,但会降低其编程能力,且模型越大这种任务特异性越明显[19] 提出的RandOpt算法 - 算法运行机制分为两步:首先对预训练模型参数进行N次随机扰动,生成N个新模型,并用少量验证数据筛选出其中表现最好的K个;然后在推理时让这K个模型“组队投票”,按少数服从多数原则决定最终输出[29][30][31][32] - 该算法是单步操作,无需迭代、学习率或梯度计算[7] - 添加扰动时会尝试不同强度的噪声(小、中、大),以确保能找到各种类型的专家[33] - 生成的N个模型可以同时在多块GPU上运行,速度很快[34] - 随机扰动次数越多,挑选出的“高手”模型越厉害,最终效果越好[42] 算法性能表现 - 在纯语言大模型(Qwen2.5, 0.5B~32B)的数学推理、编程、写作和化学任务上,RandOpt的准确率与主流专业调参方法(PPO/GRPO/ES)相当甚至更高[7][35] - 对于视觉-语言模型(Qwen2.5-VL-3B-Inst),RandOpt提升作用更明显,在GOA基准上的准确率从基础模型的56.6%提升至69.0%[38][39] - 在图像扩散模型中也观察到了类似的“神经丛林”现象,参数空间的特定区域会倾向于生成具有特定色调或视觉风格的图像[40] 算法的优势与潜在局限 - 优势在于方法简单,能节省调参所需的时间和算力资源[56] - 效果高度依赖优质的、海量多任务预训练模型作为基础前提[27][58] - 模型只能基于预训练数据寻找改进,无法让模型学会全新的技能[58] - 集成模型数量K越大效果越好,但推理时需要运行K个模型,虽然知识蒸馏能缓解此问题,但不适用于所有场景(如生成式任务)[58] - 目前更适用于有明确答案的任务,对于写故事、设计分子等结构化生成任务,其集成方式还需进一步改进[59]