北航提出代码大模型的 Scaling Laws：编程语言差异与多语言最优配比策略

研究核心观点 - 代码大模型预训练的传统惯性思维是将所有编程语言视为同质文本，但现代软件开发本质是多语言混合的，忽略语言差异会导致性能预测偏差和算力浪费 [2] - 研究团队通过大规模实验，建立了区分语言特性的Scaling Laws，并提出了一套数学可解的最优数据配比方案，以指导更高效的模型训练 [2] 语言特异性与训练动力学差异 - 研究挑战了“所有语言生而平等”的假设，通过为七种主流语言单独拟合Scaling Law，发现不同语言的训练动力学存在显著差异 [7] - Python作为动态解释型语言表现出更高的Scaling指数，意味着随着模型参数和数据的增加，其性能提升幅度最大，潜力巨大 [7] - Rust作为强类型编译型语言，模型能更快掌握其模式，在较小规模下即可达到较低Loss，但也更快进入性能饱和期，边际收益递减较快 [7] - 通过“不可约Loss”量化语言内在复杂度，各语言内在可预测性排序为：C < Java ≈ Rust < Go < TypeScript < JavaScript < Python，Python因其极高的灵活性和多样表达方式，内在熵值最高，最难被模型学透 [7] 多语言混合训练的协同效应 - 研究构建了协同增益矩阵，量化引入辅助语言对目标语言性能的影响，发现绝大多数语言能从多语言混合训练中获益，且收益大小与语法相似度高度相关 [10] - 协同效应存在非对称性：Java是多语言训练的最大受益者，几乎与任何语言混合都能大幅降低其Loss；Python是通用“供体”，但其自身从其他语言获得的收益相对有限，甚至在某些情况下会出现轻微负迁移 [10] - 协同增益矩阵数据显示，Java在与C混合时，Loss从0.79降至0.72，降幅达12.41% [11] 跨语言翻译的数据组织策略 - 论文对比了“随机打乱”和“并行配对”两种数据组织策略，后者将代码与其翻译版本拼接在同一Context中输入模型 [12] - 实验结果表明，并行配对策略在所有模型规模上均显著优于基线，它利用长上下文窗口构建了隐式的文档级对齐信号 [12] - 并行配对策略激发了模型的Zero-Shot泛化能力，例如，仅训练Python↔Java和Python↔Go配对数据的模型，在测试从未见过的Java↔Go翻译任务时，表现出了惊人的组合泛化能力 [12] 基于Scaling Laws的最优Token分配策略 - 基于研究发现，论文提出了“科学配比的多语言Scaling Law”，这是一套在固定算力预算下指导算力投资的行动指南 [15] - 最优策略遵循边际效用最大化原则，具体包括：1) 重仓高潜力语言，大幅增加Python的Token占比；2) 平衡高协同组合，如保持JavaScript和TypeScript的适度比例；3) 削减早熟语言投入，适当减少Rust和Go的数据占比 [17] - 实验验证显示，采用这种“引导式分配”策略训练出的1.5B模型，在多语言代码生成和翻译任务上，均稳定优于均匀分配的基线模型，且没有语言因数据减少而出现显著性能退化 [16] 对行业实践的启示 - 这项研究是代码大模型领域一次重要的“去魅”过程，证明编程语言在模型训练视角下绝非同质 [19] - 对于训练Code LLM的团队，数据工程的重点应从单纯的“清洗与去重”转向更宏观的“成分配比” [19] - 理解不同语言的Scaling特性及它们之间的协同关系，能在有限算力预算下训练出综合能力更强的基座模型，这是资源配置效率的提升 [19]