语言模型记忆容量

搜索文档
最新发现!每参数3.6比特,语言模型最多能记住这么多
机器之心· 2025-06-04 12:41
语言模型记忆与泛化研究 核心发现 - GPT系列模型的记忆容量约为每个参数3.6比特 达到此极限后模型停止记忆并转向泛化 [1][4] - 记忆与泛化的界限模糊 影响对模型能力和风险的评估 区分模型输出源于记忆训练数据还是理解潜在模式是关键挑战 [1] - 模型在数据量增加时持续记忆直至容量饱和 随后出现"顿悟"(grokking)现象 非预期记忆减少 泛化能力增强 [4] 研究方法 - 提出基于互信息(Mutual Information)的量化方法 通过信息论中的熵和条件熵定义记忆与泛化 [8][10] - 将记忆分为非预期记忆(特定数据集信息)和泛化(真实数据生成过程信息) 并给出数学定义 [5][7][12] - 采用Kolmogorov复杂度近似计算记忆量 通过压缩算法估计信息内容 [13][14] 实验设计 - 训练参数量50万至15亿不等的Transformer模型 建立模型容量、数据规模与成员推断关系的scaling law [6] - 使用合成序列测量容量 通过均匀采样标记构建数据集 精确计算香农信息 [20][21][23] - 测量显示模型容量与参数数量呈线性关系 每参数记忆量稳定在3.5-3.6比特 [27] 关键数据 - 800万参数模型在400万样本数据集上记忆量达2.95×10^6比特 800万样本数据集记忆量1.98×10^6比特 [28] - 训练精度从bfloat16提升至float32时 每参数记忆量从3.51比特增至3.83比特 但未达理论两倍增幅 [31][32] - 实验结果验证模型容量下限 梯度下降训练无法保证达到全局最优 [27]