大语言模型训练 - 财报，业绩电话会，研报，新闻

大语言模型训练

搜索文档

机器之心· 2025-06-23 15:44

长序列训练内存优化技术 - 核心观点：StreamBP算法通过线性分解和分步计算链式法则，将大语言模型训练所需的激活值内存降低至梯度检查点方法的20%，同时实现序列长度提升2.8-5.5倍 [3][6] 技术原理 - 梯度检查点方法仅储存每层输入，但单层完整激活值仍占内存85%以上 [9][13] - StreamBP将单层反向传播过程分解为块计算，按输出分块累加Jacobian-vector product，仅需储存当前块输入和输出 [11][14] - 对Transformer层采用注意力掩码优化，对lmhead层根据目标函数特性分块处理（SFT/GRPO独立计算，DPO利用序列维度独立性） [16][20] 性能表现 - 峰值内存从标准BP的36.01GB降至StreamBP的11.99GB（D=20），中间内存从25.15GB降至1.13GB [14] - 单卡A800-80GB测试显示，最大序列长度达梯度检查点的2.5-5.5倍，标准BP的23-36倍 [22][25] - 14B模型SFT训练中，序列长度从梯度检查点的23提升至StreamBP的84.6，32B模型从0.4提升至16.3 [26] 应用兼容性 - 支持SFT、GRPO、PPO、DPO等LLM目标函数，可集成至现有训练框架 [6][20] - 分布式训练下序列长度提升5-5.6倍，部分长序列场景速度较梯度检查点提升10.9%-12.9% [25][28] - 开源代码适配Transformer层和lmhead层，已提供PyTorch实现 [12]

虎嗅· 2025-06-05 11:14

Gemini 2.5 Pro崛起背后的底层逻辑 - 大语言模型训练的核心步骤包括预训练、监督微调和对齐阶段，过去一年行业重点转向对齐阶段，特别是强化学习方向的探索[2] - Google在Gemini系列迭代中积累了坚实的基座模型训练经验，并更加重视强化学习的作用，引入"让AI批判AI"的机制[3] - 编程能力成为各家模型竞争焦点，Anthropic在预训练阶段优先投入高质量代码数据，使其在代码生成质量上领先[4][5] - Google通过整合预训练和强化学习优势，在Gemini 2.5中实现编程和数学等高确定性任务的突破性表现[3][11] - 模型能力差异源于数据配比和训练优先级选择，Anthropic专注编程导致其他能力稍弱，OpenAI侧重人类偏好输出[5][10] Google技术团队与资源整合 - Google DeepMind由Jeff Dean、Oriol Vinyals和Noam Shazee三位专家形成技术铁三角，分别代表预训练、强化学习和自然语言处理能力[15] - Google Brain与DeepMind合并实现强强联合，前者擅长大规模资源调度和预训练，后者专精强化学习[16][17] - Sergey Brin回归带来"Founder Mode"，显著提升团队士气和工作强度，推动Gemini快速迭代[19][20] - Google拥有全球最强计算资源、人才储备和近乎无限的资源投入能力，为Gemini快速反超奠定基础[20] Google的API价格优势 - Google十年前开始布局TPU生态，避免依赖NVIDIA GPU并节省"NVIDIA税"[22] - 基础设施能力远超同行，拥有动态调度大规模集群的独家优势，OpenAI等仍需依赖第三方云服务[22][23] - 软硬件一体化优化能力使Google在成本控制上具备天然优势，API定价策略具有显著竞争力[22][23] - 行业数据显示AI服务存在高溢价空间，Google凭借规模效应可承受更低利润率[23][24] 行业竞争格局演变 - OpenAI早期凭借人类偏好输出领先，Anthropic通过代码能力突破建立优势，Google最终以推理能力实现反超[10][11] - 模型能力发展呈现螺旋式上升，各家在不同领域轮流领跑：写作→代码→推理[10][11] - XAI的Grok在数学领域表现突出，反映创始团队背景对模型特化能力的影响[12] - 编程能力商业化成为焦点，Anthropic明确追求生成可直接投入生产的代码而不仅是解题[12]

大语言模型训练

强化学习

自然语言处理

Artificial Intelligence

Artificial Intelligence

Gemini 2.5 Pro

Perplexity

大模型训练或无需“纯净数据”！北大团队新研究：随机噪声影响有限，新方法让模型更抗噪

量子位· 2025-02-27 17:37

核心观点 - 传统大语言模型训练依赖纯净数据，但研究表明数据过滤的重要性可能被高估，模型在含噪声数据中仍能有效学习[1] - 实验证明即使训练数据中混入20%随机乱码，模型的下一个词预测损失仅上升约1%，显示强大噪声耐受性[2][4] - 研究提出"局部梯度匹配"方法，有效提升噪声环境下模型在下游任务的表现[10][12] - 理论框架解释了多语言模型成功的原因，并适用于音频等其他模态[9] - 适度保留噪声可降低数据清洗成本，对资源有限团队具有实际意义[15] 实验设计与发现 - 使用GPT-2架构模型，在OpenWebText数据集中注入1%-20%随机噪声进行预训练[3] - 噪声通过生成0-50256均匀分布整数模拟解码错误，保持正常NTP训练流程[3] - 20%噪声仅使NTP loss上升1%，arXiv/Wikipedia测试中含噪模型表现更优[4][8] - 高斯噪声导致文本分类准确率下降1.5%，显示预训练指标与下游性能解耦[10] 理论分析 - 将NTP建模为分类任务，区分干净分布P^c和噪声分布P^n[6] - 证明当噪声占比α足够小时，P^n不改变NTP loss全局最小值[7] - 多语言场景中不同语言token不重合，满足理论假设，解释多语言模型成功[9] - 高斯噪声因有规律性导致更低NTP loss，实验结果验证理论预测[9] 技术创新 - 提出局部梯度匹配损失(LGM)，通过约束原始/扰动特征梯度差异增强抗噪能力[10] - LGM无需访问模型参数，适用于黑盒模型微调场景[10] - 在8个NLP和14个视觉数据集验证效果，干净模型应用LGM仍可提升1%-3%准确率[11][13] - 从Sharpness-Aware Minimization角度证明LGM与损失函数光滑度相关[14] 行业影响 - 为大规模预训练提供新视角，挑战传统数据清洗理念[15] - 理论框架可扩展至多模态场景，指导跨领域模型开发[9][15] - 可控噪声注入可能成为新型正则化手段，提升模型泛化能力[15] - 超大规模模型噪声耐受性仍需验证，是未来研究方向[14]

局部梯度匹配损失（LGM）

大语言模型训练

Artificial Intelligence

Artificial Intelligence

GPT - 2

Llama - 3

ViT - L