Workflow
大语言模型训练
icon
搜索文档
无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码
机器之心· 2025-06-23 15:44
长序列训练内存优化技术 - 核心观点:StreamBP算法通过线性分解和分步计算链式法则,将大语言模型训练所需的激活值内存降低至梯度检查点方法的20%,同时实现序列长度提升2.8-5.5倍 [3][6] 技术原理 - 梯度检查点方法仅储存每层输入,但单层完整激活值仍占内存85%以上 [9][13] - StreamBP将单层反向传播过程分解为块计算,按输出分块累加Jacobian-vector product,仅需储存当前块输入和输出 [11][14] - 对Transformer层采用注意力掩码优化,对lmhead层根据目标函数特性分块处理(SFT/GRPO独立计算,DPO利用序列维度独立性) [16][20] 性能表现 - 峰值内存从标准BP的36.01GB降至StreamBP的11.99GB(D=20),中间内存从25.15GB降至1.13GB [14] - 单卡A800-80GB测试显示,最大序列长度达梯度检查点的2.5-5.5倍,标准BP的23-36倍 [22][25] - 14B模型SFT训练中,序列长度从梯度检查点的23提升至StreamBP的84.6,32B模型从0.4提升至16.3 [26] 应用兼容性 - 支持SFT、GRPO、PPO、DPO等LLM目标函数,可集成至现有训练框架 [6][20] - 分布式训练下序列长度提升5-5.6倍,部分长序列场景速度较梯度检查点提升10.9%-12.9% [25][28] - 开源代码适配Transformer层和lmhead层,已提供PyTorch实现 [12]
Gemini2.5弯道超车背后的灵魂人物
虎嗅· 2025-06-05 11:14
Gemini 2.5 Pro崛起背后的底层逻辑 - 大语言模型训练的核心步骤包括预训练、监督微调和对齐阶段,过去一年行业重点转向对齐阶段,特别是强化学习方向的探索[2] - Google在Gemini系列迭代中积累了坚实的基座模型训练经验,并更加重视强化学习的作用,引入"让AI批判AI"的机制[3] - 编程能力成为各家模型竞争焦点,Anthropic在预训练阶段优先投入高质量代码数据,使其在代码生成质量上领先[4][5] - Google通过整合预训练和强化学习优势,在Gemini 2.5中实现编程和数学等高确定性任务的突破性表现[3][11] - 模型能力差异源于数据配比和训练优先级选择,Anthropic专注编程导致其他能力稍弱,OpenAI侧重人类偏好输出[5][10] Google技术团队与资源整合 - Google DeepMind由Jeff Dean、Oriol Vinyals和Noam Shazee三位专家形成技术铁三角,分别代表预训练、强化学习和自然语言处理能力[15] - Google Brain与DeepMind合并实现强强联合,前者擅长大规模资源调度和预训练,后者专精强化学习[16][17] - Sergey Brin回归带来"Founder Mode",显著提升团队士气和工作强度,推动Gemini快速迭代[19][20] - Google拥有全球最强计算资源、人才储备和近乎无限的资源投入能力,为Gemini快速反超奠定基础[20] Google的API价格优势 - Google十年前开始布局TPU生态,避免依赖NVIDIA GPU并节省"NVIDIA税"[22] - 基础设施能力远超同行,拥有动态调度大规模集群的独家优势,OpenAI等仍需依赖第三方云服务[22][23] - 软硬件一体化优化能力使Google在成本控制上具备天然优势,API定价策略具有显著竞争力[22][23] - 行业数据显示AI服务存在高溢价空间,Google凭借规模效应可承受更低利润率[23][24] 行业竞争格局演变 - OpenAI早期凭借人类偏好输出领先,Anthropic通过代码能力突破建立优势,Google最终以推理能力实现反超[10][11] - 模型能力发展呈现螺旋式上升,各家在不同领域轮流领跑:写作→代码→推理[10][11] - XAI的Grok在数学领域表现突出,反映创始团队背景对模型特化能力的影响[12] - 编程能力商业化成为焦点,Anthropic明确追求生成可直接投入生产的代码而不仅是解题[12]
大模型训练或无需“纯净数据”!北大团队新研究:随机噪声影响有限,新方法让模型更抗噪
量子位· 2025-02-27 17:37
核心观点 - 传统大语言模型训练依赖纯净数据,但研究表明数据过滤的重要性可能被高估,模型在含噪声数据中仍能有效学习[1] - 实验证明即使训练数据中混入20%随机乱码,模型的下一个词预测损失仅上升约1%,显示强大噪声耐受性[2][4] - 研究提出"局部梯度匹配"方法,有效提升噪声环境下模型在下游任务的表现[10][12] - 理论框架解释了多语言模型成功的原因,并适用于音频等其他模态[9] - 适度保留噪声可降低数据清洗成本,对资源有限团队具有实际意义[15] 实验设计与发现 - 使用GPT-2架构模型,在OpenWebText数据集中注入1%-20%随机噪声进行预训练[3] - 噪声通过生成0-50256均匀分布整数模拟解码错误,保持正常NTP训练流程[3] - 20%噪声仅使NTP loss上升1%,arXiv/Wikipedia测试中含噪模型表现更优[4][8] - 高斯噪声导致文本分类准确率下降1.5%,显示预训练指标与下游性能解耦[10] 理论分析 - 将NTP建模为分类任务,区分干净分布P^c和噪声分布P^n[6] - 证明当噪声占比α足够小时,P^n不改变NTP loss全局最小值[7] - 多语言场景中不同语言token不重合,满足理论假设,解释多语言模型成功[9] - 高斯噪声因有规律性导致更低NTP loss,实验结果验证理论预测[9] 技术创新 - 提出局部梯度匹配损失(LGM),通过约束原始/扰动特征梯度差异增强抗噪能力[10] - LGM无需访问模型参数,适用于黑盒模型微调场景[10] - 在8个NLP和14个视觉数据集验证效果,干净模型应用LGM仍可提升1%-3%准确率[11][13] - 从Sharpness-Aware Minimization角度证明LGM与损失函数光滑度相关[14] 行业影响 - 为大规模预训练提供新视角,挑战传统数据清洗理念[15] - 理论框架可扩展至多模态场景,指导跨领域模型开发[9][15] - 可控噪声注入可能成为新型正则化手段,提升模型泛化能力[15] - 超大规模模型噪声耐受性仍需验证,是未来研究方向[14]