研究背景与作者 - 研究由知名开源项目OpenEvolve的作者Asankhaya Sharma及其团队进行,该作者在AI/ML领域有显著成就,包括率先关注大语言模型的“推理时计算”并发表论文,以及开源了OptiLLM、OpenEvolve、Adaptive Classifier等知名项目 [7][8] 核心发现:模型“形状”比架构更重要 - 对于约70M参数的小模型,架构的重要性远低于普遍想象,相比之下,模型的“形状”(即深度与宽度的比例)更为关键 [1] - 在70M参数模型范围内,测试了包括LLaMA3、Qwen3、Gemma3在内的12种不同现代架构,发现它们的平均性能差异不到2%,表现惊人地相似 [26] - 现代架构的改进(如RMSNorm、RoPE、GQA)是为70亿以上参数的模型设计的,在70M参数规模下无法带来可衡量的优势 [27] - 这意味着对于小模型,精心调整的“深度-宽度配比”比选择具体的架构变体更重要 [27] 层数“玄学”与隐藏维度的关键作用 - 研究发现模型层数存在“玄学”:12层、32层、64层效果良好,而16层、24层、48层效果糟糕,其中最佳层数为32层 [2][15] - 效果“好”的层级(12L、32L、64L)平均得分约38%,效果“糟”的层级(16L、24L、48L)平均得分约32%,两个层级阵营之间的平均差距超过6个百分点 [15][16] - 这一现象背后的关键因素是“隐藏维度”,模型的隐藏维度必须大于或等于512,这是一个基础门槛 [3][18] - 当隐藏维度小于512时,模型性能会显著下降,除非其深度处于特定的“补偿”位置 [20] - 32层是“黄金补偿点”,在隐藏维度为384的情况下,32层配置取得了所有测试配置中的最高平均得分38.50%,甚至略胜于标准的12层设计(隐藏维度512,得分38.15%) [16][20][23] - 64层则属于“暴力补偿”,通过极深的层数来弥补宽度(隐藏维度256)的不足,从而也取得了约38.21%的高分 [20][16] 扩散模型的竞争优势 - 在测试的架构中,扩散模型(如dLLM, Dhara)的平均准确率(约31%-32%)略低于自回归模型(约32%-33%) [28][29] - 但扩散模型在推理速度和事实准确性(幻觉率低)方面具有显著优势 [30] - 扩散模型的推理速度比传统自回归模型快3.8倍,非常适合批量任务处理 [31] - 在所有测试架构中,扩散模型在衡量真实性的TruthfulQA基准上得分最高,dLLM-Canon模型达到了49.27% [33][34] - 通过一种称为“Canon层”(一种精心设计的卷积层)的特殊结构,可以进一步提升模型的事实准确性,为普通模型提升约1%,为扩散模型提升超过2%,而参数开销仅增加0.13% [35][36] 高效模型转换方法与新模型发布 - 利用LLaDA 2.0论文中的Warmup-Stable-Decay方法,可以将现有的自回归模型高效转换为扩散模型,所需数据量、成本和训练时间仅为从头训练的十分之一 [38][39] - 这种转换方法不仅结果与从头训练相当,而且在多项基准测试上超越了后者 [39] - 基于所有研究发现,团队推出了集大成的Dhara-70M模型,该模型参数为71.34M,采用32层(黄金深度)和384隐藏维度的最佳形状配置 [41][44] - Dhara-70M的构建方法是:首先采用最佳的自回归架构,然后使用WSD方法将其转换为扩散模型,从而兼具自回归模型的知识储备和扩散模型的吞吐量与事实性优势 [42][43] 对小模型构建者的实践启示 - 对于资源有限的小语言模型构建者,不应盲目追求最新的架构改进,而应首先关注基础的“深度-宽度配比”,确保模型不落入性能低下的“死亡区域” [45] - 如果应用场景需要高速处理且对事实准确性要求高,那么扩散模型是一个极具竞争力的选择 [45]
小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟
量子位·2026-01-11 12:02