LLaMA3
搜索文档
小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟
量子位· 2026-01-11 12:02
研究背景与作者 - 研究由知名开源项目OpenEvolve的作者Asankhaya Sharma及其团队进行,该作者在AI/ML领域有显著成就,包括率先关注大语言模型的“推理时计算”并发表论文,以及开源了OptiLLM、OpenEvolve、Adaptive Classifier等知名项目 [7][8] 核心发现:模型“形状”比架构更重要 - 对于约70M参数的小模型,架构的重要性远低于普遍想象,相比之下,模型的“形状”(即深度与宽度的比例)更为关键 [1] - 在70M参数模型范围内,测试了包括LLaMA3、Qwen3、Gemma3在内的12种不同现代架构,发现它们的平均性能差异不到2%,表现惊人地相似 [26] - 现代架构的改进(如RMSNorm、RoPE、GQA)是为70亿以上参数的模型设计的,在70M参数规模下无法带来可衡量的优势 [27] - 这意味着对于小模型,精心调整的“深度-宽度配比”比选择具体的架构变体更重要 [27] 层数“玄学”与隐藏维度的关键作用 - 研究发现模型层数存在“玄学”:12层、32层、64层效果良好,而16层、24层、48层效果糟糕,其中最佳层数为32层 [2][15] - 效果“好”的层级(12L、32L、64L)平均得分约38%,效果“糟”的层级(16L、24L、48L)平均得分约32%,两个层级阵营之间的平均差距超过6个百分点 [15][16] - 这一现象背后的关键因素是“隐藏维度”,模型的隐藏维度必须大于或等于512,这是一个基础门槛 [3][18] - 当隐藏维度小于512时,模型性能会显著下降,除非其深度处于特定的“补偿”位置 [20] - 32层是“黄金补偿点”,在隐藏维度为384的情况下,32层配置取得了所有测试配置中的最高平均得分38.50%,甚至略胜于标准的12层设计(隐藏维度512,得分38.15%) [16][20][23] - 64层则属于“暴力补偿”,通过极深的层数来弥补宽度(隐藏维度256)的不足,从而也取得了约38.21%的高分 [20][16] 扩散模型的竞争优势 - 在测试的架构中,扩散模型(如dLLM, Dhara)的平均准确率(约31%-32%)略低于自回归模型(约32%-33%) [28][29] - 但扩散模型在推理速度和事实准确性(幻觉率低)方面具有显著优势 [30] - 扩散模型的推理速度比传统自回归模型快3.8倍,非常适合批量任务处理 [31] - 在所有测试架构中,扩散模型在衡量真实性的TruthfulQA基准上得分最高,dLLM-Canon模型达到了49.27% [33][34] - 通过一种称为“Canon层”(一种精心设计的卷积层)的特殊结构,可以进一步提升模型的事实准确性,为普通模型提升约1%,为扩散模型提升超过2%,而参数开销仅增加0.13% [35][36] 高效模型转换方法与新模型发布 - 利用LLaDA 2.0论文中的Warmup-Stable-Decay方法,可以将现有的自回归模型高效转换为扩散模型,所需数据量、成本和训练时间仅为从头训练的十分之一 [38][39] - 这种转换方法不仅结果与从头训练相当,而且在多项基准测试上超越了后者 [39] - 基于所有研究发现,团队推出了集大成的Dhara-70M模型,该模型参数为71.34M,采用32层(黄金深度)和384隐藏维度的最佳形状配置 [41][44] - Dhara-70M的构建方法是:首先采用最佳的自回归架构,然后使用WSD方法将其转换为扩散模型,从而兼具自回归模型的知识储备和扩散模型的吞吐量与事实性优势 [42][43] 对小模型构建者的实践启示 - 对于资源有限的小语言模型构建者,不应盲目追求最新的架构改进,而应首先关注基础的“深度-宽度配比”,确保模型不落入性能低下的“死亡区域” [45] - 如果应用场景需要高速处理且对事实准确性要求高,那么扩散模型是一个极具竞争力的选择 [45]
开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
机器之心· 2025-08-18 11:22
技术突破与性能表现 - 上海交通大学DENG Lab与加州大学圣地亚哥分校联合推出Discrete Diffusion Forcing(D2F)技术,首次使开源扩散大语言模型(dLLMs)的生成速度显著超过同等规模的自回归(AR)模型[2] - D2F模型在GSM8K等基准测试中实现相比LLaMA3等主流AR模型高达2.5倍的吞吐量提升[2][6] - 该技术为原始dLLMs带来最高达50倍的加速,同时保持平均性能不下降[4][22] 技术瓶颈与解决方案 - 现有dLLMs存在KV缓存不兼容性问题,导致无法直接应用AR模型的KV缓存加速技术,造成巨大计算冗余[8] - 块间解码存在串行限制,要求前一个块完全解码后才能处理下一个块,极大限制了并行潜力[8] - D2F通过块级因果注意力机制重塑双向注意力,使dLLMs兼容KV缓存,大幅减少冗余计算[12] - 采用自回归-扩散混合范式,协同设计模型架构、训练方法及推理策略[11] 核心技术创新 - 引入块级自回归生成架构,块间保持因果性,有效利用KV缓存[15] - 实现块内token间并行解码和块间并行解码,最大化并行生成潜力[15] - 设计双状态解码流水线(半激活状态和全激活状态),通过动态解码窗口最大化吞吐量[15][20][21] - 集成vLLM进一步优化推理速度[15] 训练方法优化 - 采用非对称蒸馏策略,将预训练dLLMs教师模型能力高效蒸馏到D2F学生模型[18] - 引入单调递增的结构化噪声调度,训练中序列靠前块施加较小噪声,靠后块施加更大噪声[18] - 该训练方式教会模型依据部分去噪的前文预测后文,解锁块间并行能力[18] 实测性能数据 - 在GSM8K测试中D2F-LLaDA实现52.5 TPS(7.3倍于基线)和2.8秒延迟(11.5倍加速)[23] - 在MBPP测试中D2F-LLaDA达到47.6 TPS(52.9倍于基线)和1.4秒延迟(51倍加速)[23] - 在HumanEval测试中D2F-LLaDA取得81.6 TPS(29.1倍于基线)和1.6秒延迟(24.3倍加速)[23] - D2F-Dream模型在GSM8K测试中实现91.2 TPS(9.6倍于基线)和2.8秒延迟(9.6倍加速)[24] 技术影响与未来展望 - D2F成功证明AR和Diffusion并非完全对立范式,通过混合框架设计可融合AR模型缓存优势与dLLMs并行优势[28] - 该技术为开源dLLMs社区注入新活力,展现dLLMs在推理速度上的巨大潜力[27] - 团队已开源代码和模型,旨在推动并行解码技术走向成熟和实际应用[27]