小模型层数好玄学：12/32/64层效果好，16/24/48/层效果糟

研究背景与作者 - 研究由知名开源项目OpenEvolve的作者Asankhaya Sharma及其团队进行，该作者在AI/ML领域有显著成就，包括率先关注大语言模型的“推理时计算”并发表论文，以及开源了OptiLLM、OpenEvolve、Adaptive Classifier等知名项目 [7][8] 核心发现：模型“形状”比架构更重要 - 对于约70M参数的小模型，架构的重要性远低于普遍想象，相比之下，模型的“形状”（即深度与宽度的比例）更为关键 [1] - 在70M参数模型范围内，测试了包括LLaMA3、Qwen3、Gemma3在内的12种不同现代架构，发现它们的平均性能差异不到2%，表现惊人地相似 [26] - 现代架构的改进（如RMSNorm、RoPE、GQA）是为70亿以上参数的模型设计的，在70M参数规模下无法带来可衡量的优势 [27] - 这意味着对于小模型，精心调整的“深度-宽度配比”比选择具体的架构变体更重要 [27] 层数“玄学”与隐藏维度的关键作用 - 研究发现模型层数存在“玄学”：12层、32层、64层效果良好，而16层、24层、48层效果糟糕，其中最佳层数为32层 [2][15] - 效果“好”的层级（12L、32L、64L）平均得分约38%，效果“糟”的层级（16L、24L、48L）平均得分约32%，两个层级阵营之间的平均差距超过6个百分点 [15][16] - 这一现象背后的关键因素是“隐藏维度”，模型的隐藏维度必须大于或等于512，这是一个基础门槛 [3][18] - 当隐藏维度小于512时，模型性能会显著下降，除非其深度处于特定的“补偿”位置 [20] - 32层是“黄金补偿点”，在隐藏维度为384的情况下，32层配置取得了所有测试配置中的最高平均得分38.50%，甚至略胜于标准的12层设计（隐藏维度512，得分38.15%） [16][20][23] - 64层则属于“暴力补偿”，通过极深的层数来弥补宽度（隐藏维度256）的不足，从而也取得了约38.21%的高分 [20][16] 扩散模型的竞争优势 - 在测试的架构中，扩散模型（如dLLM, Dhara）的平均准确率（约31%-32%）略低于自回归模型（约32%-33%） [28][29] - 但扩散模型在推理速度和事实准确性（幻觉率低）方面具有显著优势 [30] - 扩散模型的推理速度比传统自回归模型快3.8倍，非常适合批量任务处理 [31] - 在所有测试架构中，扩散模型在衡量真实性的TruthfulQA基准上得分最高，dLLM-Canon模型达到了49.27% [33][34] - 通过一种称为“Canon层”（一种精心设计的卷积层）的特殊结构，可以进一步提升模型的事实准确性，为普通模型提升约1%，为扩散模型提升超过2%，而参数开销仅增加0.13% [35][36] 高效模型转换方法与新模型发布 - 利用LLaDA 2.0论文中的Warmup-Stable-Decay方法，可以将现有的自回归模型高效转换为扩散模型，所需数据量、成本和训练时间仅为从头训练的十分之一 [38][39] - 这种转换方法不仅结果与从头训练相当，而且在多项基准测试上超越了后者 [39] - 基于所有研究发现，团队推出了集大成的Dhara-70M模型，该模型参数为71.34M，采用32层（黄金深度）和384隐藏维度的最佳形状配置 [41][44] - Dhara-70M的构建方法是：首先采用最佳的自回归架构，然后使用WSD方法将其转换为扩散模型，从而兼具自回归模型的知识储备和扩散模型的吞吐量与事实性优势 [42][43] 对小模型构建者的实践启示 - 对于资源有限的小语言模型构建者，不应盲目追求最新的架构改进，而应首先关注基础的“深度-宽度配比”，确保模型不落入性能低下的“死亡区域” [45] - 如果应用场景需要高速处理且对事实准确性要求高，那么扩散模型是一个极具竞争力的选择 [45]