Workflow
LLMc
icon
搜索文档
超越ZIP的无损压缩来了,华盛顿大学让大模型成为无损文本压缩器
36氪· 2025-10-11 18:47
核心技术原理 - 利用大型语言模型作为强大的概率预测引擎,将自然语言的高维分布转换为结构化的概率信息以实现高效压缩[5] - 核心方法为基于排序的编码,即存储目标词元在LLM预测的概率排序列表中的排名,而非词元本身[6] - 解压时使用相同的LLM和上下文重现概率分布,通过存储的排名准确选择对应词元,实现无损文本恢复[6] 性能表现 - 在维基百科、小说文本和科学摘要等多种数据集上,其压缩率均优于传统压缩工具如ZIP和LZMA[2] - 与其他以LLM为基础的闭源压缩系统相比,表现出同等甚至更优的性能[2] 项目发展与现状 - 项目灵感源于实验室内部讨论,随着业界在确定性LLM推理方面取得突破,研究团队快速构建了原型并证明可行性[5] - 该项目已经开源,主要作者是来自上海交通大学ACM班的本科生Yi Pan,目前正在华盛顿大学实习[4] 当前挑战与局限 - 存在效率问题,LLM推理的计算复杂度与序列长度成二次方关系,长序列推理受内存带宽限制[7] - 采用分块处理文本策略以提高GPU利用率并降低计算开销[7] - 处理速度因严重依赖大规模模型推理而远低于传统压缩算法[7] - 当前实现主要针对自然语言,如何扩展到图像、视频或二进制数据等其他模态是未来探索方向[9]
超越ZIP的无损压缩来了!华盛顿大学让大模型成为无损文本压缩器
量子位· 2025-10-11 12:09
文章核心观点 - 华盛顿大学SyFI实验室的研究者提出了一种创新的无损文本压缩引擎LLMc,该引擎利用大型语言模型自身进行压缩 [2] - 基准测试结果表明,LLMc在维基百科、小说文本和科学摘要等多种数据集上的压缩率均优于传统压缩工具(如ZIP和LZMA),并表现出与基于LLM的闭源压缩系统同等或更优的性能 [2] - 该项目已经开源,主要作者是来自上海交通大学ACM班的本科生Yi Pan [4] LLMc的压缩机制与原理 - LLMc的灵感源于解决LLM推理内核操作非确定性带来的压缩/解压可复现性挑战,随着确定性LLM推理技术的突破,该问题得以解决 [5] - 其理论基础是香农的信源编码定理,即一个事件的概率越高,编码所需信息量越少,LLM作为强大的概率预测引擎,能为真实序列中的下一个词元赋予高概率,这正是高效压缩的关键 [6][7] - 核心方法为“基于排序的编码”,通过存储词元在LLM预测概率分布列表中的排名(通常为小整数)而非词元本身来极大减少存储空间 [8][10] - 在解压时,系统使用相同的LLM和上下文重现概率分布,并根据存储的排名准确选择对应词元,实现无损恢复,LLM本身充当压缩器与解压器之间共享的巨型“密码本” [10][11] 当前挑战与局限性 - 存在效率问题,LLM推理的计算复杂度与序列长度成二次方关系,且受内存带宽限制,LLMc采用分块处理文本策略以缓解 [12] - 吞吐量较低,由于严重依赖大规模模型推理,其处理速度目前远低于传统压缩算法 [13] - 为保证解压确定性,系统需使用特殊内核并对词元排名进行整数编码,涉及数值稳定性问题 [13] - 当前实现主要针对自然语言,如何扩展到图像、视频或二进制数据等其他模态是未来探索方向 [14]