语言模型记忆容量 - 财报，业绩电话会，研报，新闻 - Reportify

语言模型记忆容量

搜索文档

最新发现！每参数3.6比特，语言模型最多能记住这么多

机器之心· 2025-06-04 12:41

语言模型记忆与泛化研究核心发现 - GPT系列模型的记忆容量约为每个参数3.6比特达到此极限后模型停止记忆并转向泛化 [1][4] - 记忆与泛化的界限模糊影响对模型能力和风险的评估区分模型输出源于记忆训练数据还是理解潜在模式是关键挑战 [1] - 模型在数据量增加时持续记忆直至容量饱和随后出现"顿悟"(grokking)现象非预期记忆减少泛化能力增强 [4] 研究方法 - 提出基于互信息(Mutual Information)的量化方法通过信息论中的熵和条件熵定义记忆与泛化 [8][10] - 将记忆分为非预期记忆(特定数据集信息)和泛化(真实数据生成过程信息) 并给出数学定义 [5][7][12] - 采用Kolmogorov复杂度近似计算记忆量通过压缩算法估计信息内容 [13][14] 实验设计 - 训练参数量50万至15亿不等的Transformer模型建立模型容量、数据规模与成员推断关系的scaling law [6] - 使用合成序列测量容量通过均匀采样标记构建数据集精确计算香农信息 [20][21][23] - 测量显示模型容量与参数数量呈线性关系每参数记忆量稳定在3.5-3.6比特 [27] 关键数据 - 800万参数模型在400万样本数据集上记忆量达2.95×10^6比特 800万样本数据集记忆量1.98×10^6比特 [28] - 训练精度从bfloat16提升至float32时每参数记忆量从3.51比特增至3.83比特但未达理论两倍增幅 [31][32] - 实验结果验证模型容量下限梯度下降训练无法保证达到全局最优 [27]

记忆与泛化

语言模型记忆容量

Kolmogorov复杂度

Artificial Intelligence

GPT系列模型

记忆与泛化

语言模型记忆容量

Kolmogorov复杂度

Artificial Intelligence

GPT系列模型