经验智能(Experiential Intelligence)
搜索文档
他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力
量子位· 2025-12-07 17:00
AI大模型竞争焦点转移 - 行业竞争焦点正从预训练和数据红利,转向强化学习(RL),RL正从“锦上添花”变为大模型进化的主战场 [1][2][3] - 证据包括:DeepSeek V3.2的RL训练算力投入已超过预训练的10%,且性能曲线仍在上升;OpenAI的o系列、Claude的推理能力及Gemini的多模态表现背后均有大规模RL支撑 [2][10] 万亿参数RL训练的成本挑战与突破 - 在万亿参数模型上进行全参数RL训练成本极高,需要上千张顶级GPU、训练周期数周,形成资源垄断,绝大多数团队无法负担 [4][11] - Mind Lab团队取得突破,实现了全球首个在1T参数模型上的LoRA高效强化学习训练,将GPU消耗降低90% [5] - 该方案并非简单的工程优化,而是训练范式的根本性转变,相关代码已由NVIDIA Megatron-Bridge和Seed verl官方合并并开源 [6] 技术方案:LoRA RL在万亿参数MoE模型上的实现 - 核心解法:采用LoRA进行参数高效适配,配合专为万亿参数MoE模型设计的混合并行引擎,将RL计算量降至十分之一且性能不打折 [13] - 在Kimi K2模型上的验证显示,仅使用64张NVIDIA H800 GPU即可完成万亿参数RL训练 [14] - 验证取得三项关键成果:1) GPU消耗仅为传统全参数RL的10%左右;2) 训练稳定收敛;3) 在提升特定任务表现的同时,保留了基座模型的通用能力 [18][19][20] 克服MoE架构下的技术难题 - 在MoE架构上应用LoRA RL面临三大挑战:路由不均衡、通信压力爆炸、并行布局复杂 [21][22] - Mind Lab的解决方案是设计了一套混合协同并行引擎,统一调度Tensor、Pipeline、Expert、Sequence四种并行方式,并将并行视为可调度资源 [26] - 针对训练与推理使用不同后端导致的策略不匹配问题,引入了截断重要性采样比率进行显式修正,以控制梯度方差 [29][30] “大先验+小LoRA”策略的经济性优势 - 实验对比了不同规模模型采用全参数RL与LoRA RL的效果,为公平比较,控制了总RL FLOPs、环境交互次数及奖励模型等变量 [36][40] - 使用“headroom-normalized”指标评估,结论显示:32B参数模型配合rank=8的LoRA,在相同RL计算预算下,获得的性能提升比例最大 [37] - 在域外任务GPQA上,32B+LoRA的迁移效果也最好,表明“大先验+小LoRA”策略比“小模型全参数RL”更划算,因为大模型已编码丰富先验知识,RL可在此基础上精修 [38][39] 配套技术创新:Memory Diffusion记忆机制 - Mind Lab提出名为“Memory Diffusion”的新记忆机制,灵感源于人类“智慧地遗忘”,通过“遮蔽-分配-重填”三步动态压缩轨迹记忆 [45][46][47] - 该方法时间复杂度为O(1),不改变模型架构,严格遵守上下文预算 [48] - 在Locomo基准测试上,该机制达到了93%的准确率,刷新了SOTA记录 [49] 研产共设理念与产品化成果 - Mind Lab提出“研产共设”理念,认为真实产品是天然的RL环境,能提供持续、接地气的奖励信号,如用户使用模式、任务完成率等,有助于避免奖励模型被“破解” [50][51][54] - 在前端代码生成任务实验中,使用真实人类反馈训练的奖励模型显著优于仅预训练的模型,基于此的RL也显著优于监督微调 [56] - 技术已落地于Macaron AI产品,使其Mini-app生成速度从20分钟提升至2分钟,速度提升10倍,并上线了新功能 [57] 行业展望与Mind Lab定位 - 行业观点认为,以“算力规模化”为核心的预训练时代正在走向终结,下一个时代将是“经验智能”时代,智能需在真实世界中成长 [58][59][61] - Mind Lab定位为全球首个专门为“后预训练时代”而生的研究实验室,其核心命题是“智能如何在真实世界中成长”,主张下一个时代属于能通过交互不断更新的“心智” [60][61] - 团队核心研究方向包括:1) 基础设施;2) 超越预训练;3) 开放与可复现 [65]