截断矩阵熵 - 财报，业绩电话会，研报，新闻 - Reportify

截断矩阵熵

搜索文档

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

机器之心· 2025-11-13 12:12

核心观点 - 论文UNCOMP提出了一种新的理论视角和高效推理框架，用于理解大语言模型内部的结构化稀疏性机制[2] - 通过引入截断矩阵熵，公司发现信息熵随网络层数加深而递减，这完美解释了深层网络的稀疏化现象[7] - 基于该理论设计的UNCOMP框架实现了计算与内存的联合优化，在极端压缩率下仍能保证模型性能[17][19][20] 理论突破 - 传统矩阵熵分析存在悖论，显示信息熵逐层增加，与观察到的“模型越深越稀疏”现象矛盾[7] - 关键突破在于引入截断矩阵熵，通过分析Token矩阵协方差奇异值分布的拐点，只关注最重要主成分[7] - 截断矩阵熵随层数加深呈现逐层递减趋势，表明信息变得更加集中和稀疏，为压缩创造空间[7] - 该理论工具能识别中间层信息熵的异常波动点，精准对应负责信息聚合的检索层和负责长程记忆的检索头[13] 技术应用与框架设计 - UNCOMP框架首次通过直接压缩Prefill阶段的隐藏状态来间接优化KV Cache[17] - 采用层级压缩策略，在Prefill阶段压缩隐藏状态以加速计算[17] - 采用头级压缩策略，在Decoding阶段压缩流式头的KV Cache，同时保留检索头以节省内存[17] - 最佳压缩性能来自于对信息流模式的模仿，当压缩后KV Cache的逐层熵变趋势与原始趋势高度相似时性能最好[12] 性能表现 - 在Prefill阶段实现60%的加速，吞吐量提升6.4倍[19] - KV Cache压缩至4.74%，在极端压缩率下依旧保证模型性能[19][20] - 在Llama2-4k任务上，Ours-group方法达到98.42%的性能，接近FullKV的98.70%[20] - 通过合并检索层和最后层，在特定任务上实现性能几乎无损，甚至超越全尺寸基线[21]

大语言模型（LLM）

截断矩阵熵

Llama2-7B-chat-hf

Llama-2-13B-chat-hf

大语言模型（LLM）

截断矩阵熵

Llama2-7B-chat-hf

Llama-2-13B-chat-hf