大语言模型训练

搜索文档
无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码
机器之心· 2025-06-23 15:44
本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指 导下完成。 长序列训练对于模型的长序列推理等能力至关重要。随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。即便使用梯度检查点 (gradient checkpointing)方法,激活值依然占据大量内存,限制训练所能使用的序列长度。 来自港中文(深圳)和上海交通大学的团队提出 StreamBP 算法。通过对链式法则进行线性分解和分步计算,StreamBP 将大语言模型训练所需的激活值 内存(logits 和 layer activation)降低至梯度检查点(gradient checkpointing)的 20% 左右。 论文标题:StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs 在相同内存限制下,StreamBP 最大序列长度为梯度检查点的 2.8-5.5 倍。在相同序列长度下,StreamBP 的速度和梯度检查点接近甚至更快。 S ...
Gemini2.5弯道超车背后的灵魂人物
虎嗅· 2025-06-05 11:14
Gemini 2.5 Pro崛起背后的底层逻辑 - 大语言模型训练的核心步骤包括预训练、监督微调和对齐阶段,过去一年行业重点转向对齐阶段,特别是强化学习方向的探索[2] - Google在Gemini系列迭代中积累了坚实的基座模型训练经验,并更加重视强化学习的作用,引入"让AI批判AI"的机制[3] - 编程能力成为各家模型竞争焦点,Anthropic在预训练阶段优先投入高质量代码数据,使其在代码生成质量上领先[4][5] - Google通过整合预训练和强化学习优势,在Gemini 2.5中实现编程和数学等高确定性任务的突破性表现[3][11] - 模型能力差异源于数据配比和训练优先级选择,Anthropic专注编程导致其他能力稍弱,OpenAI侧重人类偏好输出[5][10] Google技术团队与资源整合 - Google DeepMind由Jeff Dean、Oriol Vinyals和Noam Shazee三位专家形成技术铁三角,分别代表预训练、强化学习和自然语言处理能力[15] - Google Brain与DeepMind合并实现强强联合,前者擅长大规模资源调度和预训练,后者专精强化学习[16][17] - Sergey Brin回归带来"Founder Mode",显著提升团队士气和工作强度,推动Gemini快速迭代[19][20] - Google拥有全球最强计算资源、人才储备和近乎无限的资源投入能力,为Gemini快速反超奠定基础[20] Google的API价格优势 - Google十年前开始布局TPU生态,避免依赖NVIDIA GPU并节省"NVIDIA税"[22] - 基础设施能力远超同行,拥有动态调度大规模集群的独家优势,OpenAI等仍需依赖第三方云服务[22][23] - 软硬件一体化优化能力使Google在成本控制上具备天然优势,API定价策略具有显著竞争力[22][23] - 行业数据显示AI服务存在高溢价空间,Google凭借规模效应可承受更低利润率[23][24] 行业竞争格局演变 - OpenAI早期凭借人类偏好输出领先,Anthropic通过代码能力突破建立优势,Google最终以推理能力实现反超[10][11] - 模型能力发展呈现螺旋式上升,各家在不同领域轮流领跑:写作→代码→推理[10][11] - XAI的Grok在数学领域表现突出,反映创始团队背景对模型特化能力的影响[12] - 编程能力商业化成为焦点,Anthropic明确追求生成可直接投入生产的代码而不仅是解题[12]
大模型训练或无需“纯净数据”!北大团队新研究:随机噪声影响有限,新方法让模型更抗噪
量子位· 2025-02-27 17:37
核心观点 - 传统大语言模型训练依赖纯净数据,但研究表明数据过滤的重要性可能被高估,模型在含噪声数据中仍能有效学习[1] - 实验证明即使训练数据中混入20%随机乱码,模型的下一个词预测损失仅上升约1%,显示强大噪声耐受性[2][4] - 研究提出"局部梯度匹配"方法,有效提升噪声环境下模型在下游任务的表现[10][12] - 理论框架解释了多语言模型成功的原因,并适用于音频等其他模态[9] - 适度保留噪声可降低数据清洗成本,对资源有限团队具有实际意义[15] 实验设计与发现 - 使用GPT-2架构模型,在OpenWebText数据集中注入1%-20%随机噪声进行预训练[3] - 噪声通过生成0-50256均匀分布整数模拟解码错误,保持正常NTP训练流程[3] - 20%噪声仅使NTP loss上升1%,arXiv/Wikipedia测试中含噪模型表现更优[4][8] - 高斯噪声导致文本分类准确率下降1.5%,显示预训练指标与下游性能解耦[10] 理论分析 - 将NTP建模为分类任务,区分干净分布P^c和噪声分布P^n[6] - 证明当噪声占比α足够小时,P^n不改变NTP loss全局最小值[7] - 多语言场景中不同语言token不重合,满足理论假设,解释多语言模型成功[9] - 高斯噪声因有规律性导致更低NTP loss,实验结果验证理论预测[9] 技术创新 - 提出局部梯度匹配损失(LGM),通过约束原始/扰动特征梯度差异增强抗噪能力[10] - LGM无需访问模型参数,适用于黑盒模型微调场景[10] - 在8个NLP和14个视觉数据集验证效果,干净模型应用LGM仍可提升1%-3%准确率[11][13] - 从Sharpness-Aware Minimization角度证明LGM与损失函数光滑度相关[14] 行业影响 - 为大规模预训练提供新视角,挑战传统数据清洗理念[15] - 理论框架可扩展至多模态场景,指导跨领域模型开发[9][15] - 可控噪声注入可能成为新型正则化手段,提升模型泛化能力[15] - 超大规模模型噪声耐受性仍需验证,是未来研究方向[14]