RandOpt算法 - 财报，业绩电话会，研报，新闻

RandOpt算法

搜索文档

量子位· 2026-03-16 14:11

核心观点 - 一项来自MIT的研究提出，无需复杂的梯度优化或强化学习调参，只需向预训练大语言模型的权重添加高斯噪声并进行集成，其性能即可比肩甚至超越GRPO、PPO等经典调参算法[1][3][7] - 该研究揭示了“神经丛林”现象，即经过海量多任务预训练的模型，其权重周围密集地存在着大量擅长不同特定任务的“专家模型”[6][9][26] - 基于此发现提出的RandOpt算法，通过“随机扰动+集成投票”的简单两步，在多项任务上取得了与专业调参方法相当甚至更优的效果，且模型越大效果越好[7][8][28] 研究发现的“神经丛林”现象 - 预训练模型的权重空间内，能解决不同任务的模型并非零散分布，而是像灌木丛一样密集地“长”在预训练权重附近[6][9] - 因此，理论上无需复杂训练，只需在预训练权重附近进行参数扰动，就有机会找到表现不错的任务专家[10] - 这种现象的关键成因在于大模型的海量多任务预训练，单一任务预训练或无预训练的模型周围不会出现此现象[25][26][27] - 模型规模越大，其权重周围的“高精度区域”或有效扰动就越密集，随机扰动找到有效改进方案的概率越高[16][17] - 随机扰动产生的“专家”是“偏科”的，即一个改动可能提升模型在数学推理上的表现，但会降低其编程能力，且模型越大这种任务特异性越明显[19] 提出的RandOpt算法 - 算法运行机制分为两步：首先对预训练模型参数进行N次随机扰动，生成N个新模型，并用少量验证数据筛选出其中表现最好的K个；然后在推理时让这K个模型“组队投票”，按少数服从多数原则决定最终输出[29][30][31][32] - 该算法是单步操作，无需迭代、学习率或梯度计算[7] - 添加扰动时会尝试不同强度的噪声（小、中、大），以确保能找到各种类型的专家[33] - 生成的N个模型可以同时在多块GPU上运行，速度很快[34] - 随机扰动次数越多，挑选出的“高手”模型越厉害，最终效果越好[42] 算法性能表现 - 在纯语言大模型（Qwen2.5， 0.5B~32B）的数学推理、编程、写作和化学任务上，RandOpt的准确率与主流专业调参方法（PPO/GRPO/ES）相当甚至更高[7][35] - 对于视觉-语言模型（Qwen2.5-VL-3B-Inst），RandOpt提升作用更明显，在GOA基准上的准确率从基础模型的56.6%提升至69.0%[38][39] - 在图像扩散模型中也观察到了类似的“神经丛林”现象，参数空间的特定区域会倾向于生成具有特定色调或视觉风格的图像[40] 算法的优势与潜在局限 - 优势在于方法简单，能节省调参所需的时间和算力资源[56] - 效果高度依赖优质的、海量多任务预训练模型作为基础前提[27][58] - 模型只能基于预训练数据寻找改进，无法让模型学会全新的技能[58] - 集成模型数量K越大效果越好，但推理时需要运行K个模型，虽然知识蒸馏能缓解此问题，但不适用于所有场景（如生成式任务）[58] - 目前更适用于有明确答案的任务，对于写故事、设计分子等结构化生成任务，其集成方式还需进一步改进[59]

神经丛林

RandOpt算法

Artificial Intelligence

Qwen2.5模型

神经丛林

RandOpt算法

Artificial Intelligence

Qwen2.5模型

后训练中的RL已死？MIT新算法挑战传统后训练思维，谢赛宁转发

机器之心· 2026-03-15 14:00

论文核心观点 - 提出了一种颠覆传统认知的后训练新方法RandOpt 该方法仅需向预训练模型权重添加单步高斯噪声并进行模型集成无需迭代、学习率或梯度计算即可在多项复杂任务上达到或超越传统强化学习方法(如PPO、GRPO)的性能 [1][4][7] - 揭示了大型预训练模型参数空间存在“神经丛林”现象即预训练权重周围密集分布着大量针对特定任务的专家模型使得简单的随机采样就能发现有效解决方案 [3][4][23] - 指出“神经丛林”的涌现依赖于模型规模和在混合多任务数据上的预训练模型越大、预训练数据越多样其周围任务专家的密度和多样性就越高 [20][26][28][29] 神经丛林现象的理论基础 - 传统观点认为优秀解决方案在权重空间中分布稀疏但该研究发现在完成预训练后大型语言模型的权重空间形成了密集的“神经丛林” [3] - 模型规模决定分布形态：小模型处于“大海捞针”状态优秀解决方案密度极低大模型则处于“神经丛林”状态预训练权重周围密集分布着能提升特定任务性能的专家 [22][23] - 通过向参数量从0.5B到32B的Qwen2.5预训练模型注入1000个随机权重扰动并可视化实验清晰呈现了缩放定律即模型规模越大代表更高准确率的任务改善区域就越密集 [24][26] - 1D信号预测实验表明 “神经丛林”仅在模型经过混合多任务预训练后才会出现单一任务预训练无法形成功能多样性 [28][29][31] RandOpt算法机制与性能 - RandOpt算法定义为单步、无梯度、无学习率、无迭代、完全并行的后训练算法操作分为两个阶段：1) 训练阶段采样N个随机噪声生成模型副本并在小训练集上选出Top-K个表现最好的模型 2) 推理阶段利用K个模型进行预测并通过多数投票集成 [33] - 该算法性能与基础模型规模强相关对于经过预训练的模型在参数量达到约1.5B时 RandOpt的性能提升开始迎来爆发 [35] - 在消耗相同训练FLOPs的前提下 RandOpt(通常设置K=50)在数学推理、代码生成、创意写作及化学任务上绝大多数设定中追平甚至超越了PPO、GRPO和进化策略等标准后训练方法 [38] - 在训练时间上具有颠覆性优势传统方法需数百个序列化更新步骤时间复杂度O(T) 而RandOpt为O(1) 例如在一组200个GH200 GPU集群上训练OLMo-3-7B-Instruct模型仅需3.2分钟即可完成并在Countdown任务上达到70%准确率 [38] 实验验证与应用拓展 - 错误归因分解表明 RandOpt的性能提升中有19.0%来源于修正输出格式的“格式丛林” 更有12.3%来源于真正掌握正确推理的“推理丛林” 证明了神经丛林中存在掌握实质性技能的专家 [41] - 该方法同样适用于视觉语言模型在冻结视觉编码器、仅扰动语言模型权重的情况下 RandOpt将3B参数的Qwen2.5-VL-Instruct模型在GQA视觉推理数据集上的准确率提升了12.4% [39] - “丛林”现象在文本到图像生成领域(如Stable Diffusion XL模型)中表现为“色彩丛林” 某些参数空间区域会优先生成具有特定调色板或视觉风格的图像 [41] - 为克服推理时需K次前向传播的部署劣势研究者提出蒸馏方案利用RandOpt筛选出的Top-50模型生成数据对基础模型进行两轮监督微调在GSM8K上蒸馏后的单一模型性能(84.3%)接近庞大集成模型(87.1%) 且计算成本仅占RandOpt训练成本的约2% [43]