Workflow
信息论
icon
搜索文档
最新发现!每参数3.6比特,语言模型最多能记住这么多
机器之心· 2025-06-04 12:41
语言模型记忆与泛化研究 核心发现 - GPT系列模型的记忆容量约为每个参数3.6比特 达到此极限后模型停止记忆并转向泛化 [1][4] - 记忆与泛化的界限模糊 影响对模型能力和风险的评估 区分模型输出源于记忆训练数据还是理解潜在模式是关键挑战 [1] - 模型在数据量增加时持续记忆直至容量饱和 随后出现"顿悟"(grokking)现象 非预期记忆减少 泛化能力增强 [4] 研究方法 - 提出基于互信息(Mutual Information)的量化方法 通过信息论中的熵和条件熵定义记忆与泛化 [8][10] - 将记忆分为非预期记忆(特定数据集信息)和泛化(真实数据生成过程信息) 并给出数学定义 [5][7][12] - 采用Kolmogorov复杂度近似计算记忆量 通过压缩算法估计信息内容 [13][14] 实验设计 - 训练参数量50万至15亿不等的Transformer模型 建立模型容量、数据规模与成员推断关系的scaling law [6] - 使用合成序列测量容量 通过均匀采样标记构建数据集 精确计算香农信息 [20][21][23] - 测量显示模型容量与参数数量呈线性关系 每参数记忆量稳定在3.5-3.6比特 [27] 关键数据 - 800万参数模型在400万样本数据集上记忆量达2.95×10^6比特 800万样本数据集记忆量1.98×10^6比特 [28] - 训练精度从bfloat16提升至float32时 每参数记忆量从3.51比特增至3.83比特 但未达理论两倍增幅 [31][32] - 实验结果验证模型容量下限 梯度下降训练无法保证达到全局最优 [27]
当答案变得廉价时,好问题就是新的稀缺品
36氪· 2025-05-04 08:03
技术革新与行业重塑 - 摄影术的发明颠覆了19世纪巴黎美术学院定义的正统艺术标准,使绘画从现实主义转向对光影、质感和全新诠释的探索[2][3] - 大语言模型(LLM)如同当年的摄影术,通过降低答案获取成本重塑脑力劳动形态,其核心能力在于生成貌似可信的即时答案[15] - 印象派通过重新定义艺术问题(从"再现"转向"诠释")创造新价值,类比当前AI时代需要从答案消费转向问题设计[10][12][14] 信息经济学范式变迁 - 香农信息论揭示信息价值与其消除的不确定性成正比,而主流系统(如LLM)却逆向生成流畅但无实质的答案[22][23] - 在知识过剩环境中,注意力成为稀缺资源,系统设计缺陷导致数据收集超越边际效用[31][32] - 咨询业面临范式危机:答案商品化导致价值稀释,行业瓶颈转向问题界定能力[58][59][60] 认知框架重构 - 突破性创新(如CRISPR技术应用)往往源于对主流假设的质疑和问题框架的重构[37] - 人机协同优势体现在LLM连接跨领域知识的能力与人类提问能力的结合[39][41] - 香农理论的三阶影响展示好问题的链式反应:从通信工程扩展到生物学、经济学等跨学科领域[42] 能力体系转型 - 传统教育强调答案输出能力,而结构性不确定环境要求培养提问与探索能力[64] - 技能再培训若仅聚焦新答案掌握将失效,必须升级为问题设计能力培养[63] - 顶尖知识工作者需将不确定性转化为探索机会,构建动态认知地图而非静态知识库[64]