Workflow
大型语言模型训练
icon
搜索文档
阿里巴巴申请公布大型语言模型训练相关专利
企查查· 2026-02-13 17:53
阿里巴巴AI技术研发进展 - 阿里巴巴(中国)有限公司近日申请并公布了一项关于大型语言模型(LLM)训练方法的新专利,专利名称为“一种基于思维链训练大型语言模型的方法、装置和设备” [1] 专利技术方法概述 - 该专利方法首先通过获取包含图像、图像辅助文本信息及图像标准审核结果的多个初始采样数据 [1] - 根据每个初始采样数据生成思维链数据,并形成思维链数据集合 [1] - 利用该思维链数据集合对基础大型语言模型进行全量微调,以确定一个中间大型语言模型 [1] - 随后,基于该中间大型语言模型和多个初始采样数据,迭代生成多个中间思维链数据 [1] - 根据预先设置的奖励函数,确定各中间思维链数据的奖励数值 [1] - 最后采用组相对策略优化算法(GRPO)对中间大型语言模型进行强化学习,从而确定最终的目标大型语言模型 [1] 技术应用与目标 - 该专利技术旨在通过上述方法,提高大型语言模型在特定任务中的可解释性 [1] - 该技术方法同时旨在提升大型语言模型在相关任务中的审核精度 [1]
豆包是如何炼成的?字节放出自研万卡训练系统ByteRobust论文
机器之心· 2025-10-21 17:32
文章核心观点 - 大规模语言模型训练面临因GPU集群庞大而频繁发生的硬件和软件故障挑战,严重制约有效训练时间比率(ETTR)[1][2] - 字节跳动提出并部署了名为ByteRobust的稳健LLM训练基础设施,其核心设计理念是通过快速隔离故障、自动化容错和高效恢复机制,最大化ETTR [3][7][24] - ByteRobust在实际生产环境中表现卓越,在万级GPU集群上实现了高达97%的ETTR,并将恢复速度提升了超过10倍 [25][28][32] LLM训练规模与挑战 - LLM训练规模已达数万块GPU,例如LLaMA 3预训练动用了16,384块H100 GPU,xAI建立了10万块GPU的集群 [1] - 大规模训练伴随高故障率,Meta报告在16,000块GPU上硬件故障约每2.78小时发生一次 [1] - 传统“故障-停止-诊断-恢复”流程耗时从几小时到几天,极大限制了ETTR [2] ByteRobust基础设施概述 - ByteRobust旨在以最小非生产时间实现高效事件诊断和处理,核心目标为获得高ETTR [7] - 系统由控制平面和数据平面两大核心组件构成,监控管理LLM训练全生命周期 [8] - 控制平面负责协调异常检测、故障定位和恢复操作;数据平面提供实时可观测性、即时诊断和快速检查点回滚 [10][11] 核心设计理念:优先快速隔离 - 系统倾向于快速故障隔离而非精确定位,以避免大量GPU闲置 [13] - 结合轻量级实时检测与分层“停止-诊断”,以最小开销快速甄别故障机器 [14] - 应用数据驱动方法对运行时堆栈跟踪进行聚类分析,在故障域内隔离可疑机器,宁可“过度驱逐” [14] 自动化容错机制 - 系统将人为错误纳入设计考量,提出自动化容错框架 [18] - 框架结合实时检查、“停止-诊断”、原地重试、代码回滚和回放测试,以应对各类故障 [19] - 采用“延迟更新”方法,将用户代码变更与故障恢复过程合并 [20] 快速恢复与控制可变性 - 对于不改变机器分配的变更,使用“原地热更新”机制保留运行时环境 [22] - 利用预先配置且经过自检的“温备用”机器,避免整个任务的重新调度 [23] - 检查点模块将备份分布在不同并行组中,消除对远程文件系统的依赖,实现快速重启 [23] 实际部署与性能表现 - ByteRobust已实际部署超过一年,用于支持内部LLM训练 [24] - 在三个月内,系统通过自动化容错框架识别了38,236次显式故障和5,948次隐式故障 [26] - 故障统计覆盖778,135个训练任务,其中CUDA错误占比最高,达36.1% [27] - 在16,384块GPU上,温备用和热更新机制使恢复速度分别提升10.87倍和11.04倍 [28] - 高效检查点机制实现“每步检查点”,开销低于0.9%,显著加速故障切换 [31] - 在9,600块GPU上训练70B+密集模型时,实现了97%的ETTR [32] - 通过热更新机制部署更高效训练代码,在密集模型和MoE任务中分别实现1.25倍和1.58倍的MFU提升 [37]
比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快
机器之心· 2025-07-15 08:59
大型语言模型训练新方法POET 核心观点 - 提出基于第一性原理的重参数化训练方法POET 通过正交等价变换实现高效稳定的大模型训练 严格保持权重矩阵奇异值分布并维持低超球能量 [3][6] - 该方法在LLaMA架构不同规模模型(60M至1.3B参数)上验证有效 显著降低验证困惑度(perplexity)并提升训练效率 [20][23] - 创新性引入两级近似方案解决计算扩展难题 参数效率最高可比AdamW提升mn/b(b-1)倍 [18][26][27] 技术原理 - 核心机制为将权重矩阵分解为随机固定矩阵与两个可学习正交矩阵的乘积 通过正交变换保持谱结构不变性 [11][17] - 采用归一化高斯初始化策略确保有界奇异值 实证显示其困惑度25.37优于标准初始化(26.22)和Xavier(25.79) [34][35] - 训练动态显示三阶段特征 包括锥壳搜索(余弦相似度0.6-0.65)、稳定学习及最终微调 [40][41] 性能优势 - 谱保持特性使350M参数模型训练中奇异值变化幅度比AdamW降低98% 谱多样性熵值持续高位 [13][15][17] - 在1.3B模型预训练中 POET-FS仅需AdamW 1/3训练步数(token量)即实现更低验证困惑度 [24] - 内存占用优化显著 块随机SPO变体参数复杂度仅为m+n 远低于AdamW的mn [26][27] 实现方法 - 开发Cayley-Neumann参数化近似 通过Neumann级数保持正交性 结合合并再初始化策略抑制误差 [19][29] - 提供完全随机SPO与块随机SPO两种变体 支持通过采样预算b灵活平衡效率与速度 [26][29][30] - 训练流程包含权重初始化、正交矩阵CNP参数化、内循环更新及合并再初始化五个标准化步骤 [28][32]