大语言模型扩展挑战与解决方案 - 大语言模型(LLM)参数规模呈指数级增长,从数十亿级扩展到数万亿级,但训练成本高昂且难以适应不同推理场景[1] - 现有扩展策略无法保留已有知识规模,需从头训练导致效率低下,且缺乏动态适应问题解决的机制[11] - 密集模型或MoE架构始终激活固定规模参数,限制了灵活性[11] 表征链(CoR)创新理论 - 提出表征链概念,将表征视为隐藏维度上多个子表征的组合,每个子表征对应一条链[4] - 通过激活不同数量前导链,可编码不同尺度知识,单一表示最多支持n个尺度(n=1时等同于原始表示)[12] - 关键挑战在于建立跨尺度特征转换机制,确保输出符合CoR标准[12] 模型链(CoM)学习范式 - 引入链式层(CoL)构建因果依赖关系,每个尺度仅能使用前序尺度信息[8] - CoL具备三大特性:普遍性、因果性、组合性,堆叠多层仍能保留特性[13][14] - 任何模型在链数为1时均为CoM特例,可通过新增链实现扩展[15] 语言模型链(CoLM)实现 - 将CoL应用于Transformer各层重构架构,形成CoLM模型[9] - 引入键值共享机制(CoLM-Air),所有键值在首链计算,提升可扩展性和灵活性[9] - 实验显示CoLM在常识推理任务中性能与基线相当,参数量1.11B时HellaSwag准确率达40.25[23][24] 扩展与优化效果 - 基于LLaMA变体扩展实验显示,TinyLLaMA-v1.1平均准确率提升0.92,LLaMA-3.21B提升0.14[25] - CoLM-Air在相近参数量下预填充速度优于LLaMA,序列越长优势越显著[27] - 链式调优方法可冻结42%参数,降低调优成本并缓解灾难性遗忘[29]
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好