线性规划
搜索文档
DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
36氪· 2025-11-21 07:53
项目发布与市场关注度 - DeepSeek在GitHub上低调发布了新的代码库LPLB,项目地址为https://github.com/deepseek-ai/LPLB [1] - 项目发布初期关注度较低,未发布推文或公众号更新,技术博主分享的推文关注不多,截至目前项目star数量未超过200 [1] - 有观点认为该项目表明公司正在解决正确性和吞吐量瓶颈问题,为下一版模型发布做准备 [1] 技术方案核心原理 - LPLB全称为基于线性规划的负载均衡器,旨在解决MoE训练中的动态负载不均衡问题 [3][7] - 通过三个核心步骤实现动态负载均衡:动态重排序专家、构建专家副本、求解最优Token分配方案 [4] - 专门处理由训练过程中小批次数据随机性引起的瞬时负载抖动等动态波动问题 [8] - 核心创新点在于引入线性规划数学工具实时计算最优分配,并利用底层NVSHMEM技术打破通信瓶颈 [14] 具体实现机制 - 专家重排序过程由EPLB协助完成,实时工作负载统计信息可通过多种方式获取 [4] - 使用内置LP求解器实现单SM内点法,利用NVIDIA的cuSolverDx和cuBLASDx库进行高效线性代数运算 [4] - 通过创建冗余专家副本链接到原始专家,在GPU之间形成连接边,定义边容量为当前批次分配给冗余专家的Token数量 [9] - 通信优化使用NVLINK和NVSHMEM替代传统torch.distributed.allreduce,大幅降低通信开销 [10] 技术特点与优势 - 方案与英伟达用于调度SM的方案相似,但将抽象提升到了pipeline层级 [5] - 强调单SM求解过程,意味着求解过程非常轻量化,不会占用过多计算资源 [5] - 能有效解决MoE模型中某些专家比其他专家接收更多Token导致的GPU负载不均问题 [4] - 本质上是在解决大模型训练中的木桶效应问题,即训练速度取决于负载最重的GPU [14] 当前发展阶段与局限性 - 项目目前处于早期研究阶段,性能改进情况仍在评估中,应该还未被用于生产流程 [7] - 求解器在节点内优化大约需要100µs,对于非常小的Batch Size,这个延迟可能不可忽略 [12] - 当前规划器仅平衡Token总数,未考虑分组矩阵乘法时间成本的非线性特征,可能导致性能非绝对最优 [11] - 在全局负载极端不均衡的情况下,LPLB表现可能不如EPLB [12] 拓扑结构配置 - 支持多种典型拓扑结构配置,包括立方体、超立方体和环面拓扑 [13] - 立方体拓扑要求在GPU子集上复制专家,形成带有对角边的立方体图,需要每个GPU至少2个专家 [13] - 超立方体拓扑类似于立方体但不包含对角边,需要16个GPU,适合跨16个GPU的专家并行 [13] - 环面拓扑在同一节点内的邻居GPU上复制专家,在邻节点GPU上复制另一个专家,形成环面图 [13]
DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
机器之心· 2025-11-20 23:13
项目概述 - DeepSeek在GitHub上开源了一个名为LPLB的新代码库,该项目全称为基于线性规划的负载均衡器 [1][2][5] - 该项目旨在利用线性规划算法优化混合专家模型中的专家并行工作负载分配,以解决训练过程中的动态负载不均衡问题 [5][9] - 尽管项目在GitHub上的star数量尚未超过200,且关注度不高,但有观点认为这表明公司正在为解决模型正确性和吞吐量瓶颈做准备 [1] 技术原理与流程 - LPLB通过三个核心步骤实现动态负载均衡:动态重排序、构建副本以及针对每个批次的数据求解最优的Token分配方案 [5] - 其专家重排序过程由EPLB协助完成,实时工作负载统计信息可通过用户提供、torch.distributed收集或直接从Deep-EP缓冲区获取 [6] - 求解器使用了内置的线性规划求解器,实现了单流式多处理器内点法,并利用NVIDIA的cuSolverDx和cuBLASDx库进行高效线性代数运算 [6] - 该方案将负载均衡的抽象提升到了pipeline层级,其求解过程非常轻量化,不会占用过多计算资源 [6] 性能与优化 - LPLB通过求解线性规划问题,在遵守边容量限制的前提下,沿冗余专家形成的连接边重新分配Token,以最小化专家并行组内的负载不均衡 [11] - 通信优化方面,实时工作负载的同步使用NVLINK和NVSHMEM进行优化,替代了传统的torch.distributed.allreduce,从而大幅降低通信开销 [11] - 求解器在节点内优化大约需要100微秒,对于非常小的批次大小,此延迟可能不可忽略 [11] 拓扑结构 - LPLB允许通过修改r2o矩阵来定义专家副本的分布方式,支持几种典型拓扑结构,包括立方体、超立方体和环面 [14][17] - 立方体拓扑要求在GPU子集上复制专家,形成带有对角边的立方体图,且每个GPU至少需要2个专家,适合在8 GPU的EP子组内进行平衡 [17] - 超立方体拓扑类似于立方体但不包含对角边,需要16个GPU,适合跨16个GPU的专家并行 [17] - 环面拓扑在同一节点内的邻居GPU上复制一个专家,在邻节点的GPU上复制另一个专家,形成环面图,对全局平衡有效但效率通常低于立方体 [17] 项目阶段与意义 - 该项目目前处于早期研究阶段,性能改进情况仍在评估中,尚未被用于生产流程 [8] - 该库的创新点在于引入线性规划这一数学工具来实时计算最优分配,并利用底层的NVSHMEM技术来打破通信瓶颈 [15] - 该项目本质上是试图解决大模型训练中的“木桶效应”问题,即训练速度往往取决于负载最重的那个GPU,对于研究MoE架构训练加速的开发者而言是一个有价值的参考实现 [15]
一个运行了80年的算法,我们现在才真正理解它?
机器之心· 2025-10-19 11:48
单纯形法的历史与背景 - 单纯形法由数学家乔治·丹齐格于1947年提出,被誉为线性规划之父,该方法借鉴了其1939年解决统计学领域两个著名未解问题时所发展的数学技巧[1][4][6] - 该方法的诞生源于二战后美国空军对优化有限资源分配的战略需求,旨在解决涉及成百上千个变量的复杂优化问题[5][6] - 近80年来,单纯形法已成为优化领域的基石工具,广泛应用于物流、供应链管理等复杂约束条件下的决策过程,被描述为高效且行之有效[1][6] 单纯形法的理论挑战与突破 - 1972年数学家证明单纯形法在最坏情况下所需时间可能随约束条件数量呈指数级增长,这与其实践中的高效表现形成理论矛盾[7] - 2001年Spielman和滕尚华的里程碑研究通过引入随机性,证明单纯形法的运行时间在实践中可被控制在约束数量的多项式时间内(如n²),远优于指数时间(如2ⁿ)[10][13][17] - 2025年Huiberts和Bach的新论文进一步优化了算法,将运行时间保证降至更低水平(如O(σ^(-1/2) d^(11/4) log(n)^(7/4) + d³ log(n)²)),并证明此值为该模型下的理论极限,从而从数学上解释了其高效原因[10][26][27] 单纯形法的几何原理与应用示例 - 从几何角度看,单纯形法将优化问题转化为在多面体上寻找从底部顶点到最高点的最短路径,路径步数与算法复杂度直接相关[11][21] - 算法执行如同在无地图的多面体迷宫中导航,在每个顶点选择行进方向,运气不佳时可能陷入最长路径导致指数级时间,而引入随机性可有效避免此最坏情况[12][16] - 该方法可解决实际优化问题,例如家具公司在约束条件(如总产量≤50件、衣柜产量≤20个、椅子产量≤24把)下最大化利润函数(如3a+2b+c)[19][20][21] 研究成果的意义与未来方向 - 新研究为依赖单纯形法的软件提供了更强的数学支持,平息了人们对潜在指数级复杂度的担忧,增强了该工具在实践中的可信度[10][30] - 尽管当前工作尚未产生直接实际应用,但理论上的完善巩固了单纯形法作为优化领域核心工具的地位[28][30] - 未来研究的北极星目标是开发运行时间与约束数量成线性关系的新方法,但这需要全新的策略,短期内难以实现[28]
展望未来:炼油与石化行业战略转型已成必选项
麦肯锡· 2025-08-26 18:06
近期趋势与市场展望 - 炼油市场增长放缓 预计到2030年炼油利润率下降5%至30% [3] - 亚洲炼油厂开工率将显著波动 需求增长放缓与电动汽车普及打破供需平衡 [3] - 化工市场需求年增长率放缓至约3% 产能过剩压缩利润空间 [3] - 2030年后化工市场可能回暖 产能优化举措逐步显现效果 [3] 行业挑战 - 碳中和政策不确定性使长期规划复杂化 落后产能退出或成为必要措施 [4] - 地缘政治紧张导致关税变动 关键原料关税令生产成本提升约7% [4] - 供需失衡激化竞争 产品组合多样化对抵消传统市场压力至关重要 [4] 战略转型路径 - 企业聚焦成本削减 产能优化整合与数字化转型 [5] - 东亚领先炼油厂通过数字化转型实现每桶利润提升0.9至1.3美元 [5] - 原料整合与灵活性 多元化能源采用及高附加值产品转型成为关键举措 [6] 生产优化技术应用 - 线性规划模型使装置产能提升高达5% 原料成本降低0.5美元/桶 [7] - 先进过程控制提升产品收率 流化催化裂化装置降低能耗成本0.3美元/桶 [8] - 人工智能模型覆盖端到端价值链 优化延迟焦化装置处理量 [8] 供应链与采购优化 - 采购部门与技术团队协作实现材料降本4%至6% [8] - 数字采购平台提升采购流程效率与透明度 [9] - 基于支出分析的供应商谈判达成成本节约 [9] 资产维护管理 - 停工检修总成本削减5%至15% 延长资产可用性并减少运营支出 [10] - 预测性维护减少非计划停机 先进分析支撑异常检测与可靠性强化 [10] 资本支出优化 - 风险威胁优先级排序方法论实现10%至20%的CAPEX削减 [11] - 数字化工具优化蒸汽平衡与原料调合 在不增加资本支出前提下释放产能 [12] - 实时裂解优化模型提升裂解装置整体收率与能效水平 [12] 商业销售策略 - 产品与客户组合优化实现盈利能力提升10%至15% [14] - 生成式AI快速锁定产品需求旺盛市场 大幅缩短客户识别周期 [14] - 动态定价模型基于客户支付意愿 实现收入与利润最大化 [15] 行业竞争格局转型 - 传统规模效应与一体化布局不足为恃 数字化技术深度嵌入日常运营成为关键 [16] - 企业需将产品组合转向高利润 面向未来的产品以保持竞争力 [16]
杉数科技申请基于线性规划的热能交易市场调控方法专利,优化热能交易市场运作机制
搜狐财经· 2025-05-16 10:45
公司专利动态 - 杉数科技及其关联公司联合第五范式(深圳)科技有限公司申请了一项名为"基于线性规划的热能交易市场调控方法、装置及电子设备"的专利,公开号CN119990663A,申请日期为2025年2月 [1] - 该专利旨在通过线性规划方法优化热能交易市场的运作机制,提升市场整体效能和稳定性 [1] - 专利技术包括获取生产者和消费者信息、构建热能交易调控模型、求解市场均衡价格和热能交易量等关键步骤 [1] 杉数科技公司概况 - 杉数科技(北京)有限公司成立于2016年,注册资本1300.374773万人民币,对外投资10家企业,参与招投标70次,拥有商标124条、专利270条、行政许可3个 [2] - 上海杉数网络科技有限公司成立于2016年,注册资本1000万人民币,参与招投标8次,拥有专利259条、行政许可1个 [2] - 广州杉数科技有限公司成立于2023年,注册资本100万人民币,拥有专利102条、行政许可3个 [2] - 杉数科技(南京)有限公司成立于2023年,注册资本300万人民币,拥有专利102条、行政许可1个 [2] 关联企业信息 - 第五范式(深圳)科技有限公司成立于2018年,注册资本100万人民币,拥有专利254条、行政许可4个 [3] - 杉数科技(苏州)有限公司成立于2016年,注册资本100万人民币,拥有专利249条、行政许可1个 [3]