Workflow
截断矩阵熵
icon
搜索文档
跨层压缩隐藏状态同时加速TTFT和压缩KV cache!
机器之心· 2025-11-13 12:12
核心观点 - 论文UNCOMP提出了一种新的理论视角和高效推理框架,用于理解大语言模型内部的结构化稀疏性机制[2] - 通过引入截断矩阵熵,公司发现信息熵随网络层数加深而递减,这完美解释了深层网络的稀疏化现象[7] - 基于该理论设计的UNCOMP框架实现了计算与内存的联合优化,在极端压缩率下仍能保证模型性能[17][19][20] 理论突破 - 传统矩阵熵分析存在悖论,显示信息熵逐层增加,与观察到的“模型越深越稀疏”现象矛盾[7] - 关键突破在于引入截断矩阵熵,通过分析Token矩阵协方差奇异值分布的拐点,只关注最重要主成分[7] - 截断矩阵熵随层数加深呈现逐层递减趋势,表明信息变得更加集中和稀疏,为压缩创造空间[7] - 该理论工具能识别中间层信息熵的异常波动点,精准对应负责信息聚合的检索层和负责长程记忆的检索头[13] 技术应用与框架设计 - UNCOMP框架首次通过直接压缩Prefill阶段的隐藏状态来间接优化KV Cache[17] - 采用层级压缩策略,在Prefill阶段压缩隐藏状态以加速计算[17] - 采用头级压缩策略,在Decoding阶段压缩流式头的KV Cache,同时保留检索头以节省内存[17] - 最佳压缩性能来自于对信息流模式的模仿,当压缩后KV Cache的逐层熵变趋势与原始趋势高度相似时性能最好[12] 性能表现 - 在Prefill阶段实现60%的加速,吞吐量提升6.4倍[19] - KV Cache压缩至4.74%,在极端压缩率下依旧保证模型性能[19][20] - 在Llama2-4k任务上,Ours-group方法达到98.42%的性能,接近FullKV的98.70%[20] - 通过合并检索层和最后层,在特定任务上实现性能几乎无损,甚至超越全尺寸基线[21]