Workflow
信息论
icon
搜索文档
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节
量子位· 2025-07-04 09:42
语义压缩研究 - 人类具备将不同事物归类到高级概念(如"水果")的语义压缩能力,即使面对新词汇也能通过语义线索快速分类 [1][2][3] - 图灵奖得主LeCun团队提出信息论框架,对比人类与LLM在语义压缩中的策略差异:LLM偏向统计压缩,人类更注重细节与语境 [4][5][17] 研究框架设计 - 构建包含1049个项目、34个语义类别的人类概念分类基准,整合认知科学经典研究数据,包含典型性评分以反映人类概念结构 [5][6][7] - 选取30+种LLM(参数规模3亿至720亿),包括BERT、LlamA、Gemma等,从嵌入层提取静态词元表示以确保与人类分类实验基准一致 [8] - 引入信息论框架,结合速率失真理论和信息瓶颈原理分析压缩效率与语义保真度的权衡 [9][12] 核心研究发现 - LLM概念分类与人类语义分类的对齐度显著高于随机水平,验证其基本语义组织能力 [10][11] - LLM难以处理细粒度语义差异,其内部概念结构与人类直觉不符,典型性判断与余弦相似度的相关系数较弱且大多不显著 [14][16] - 关键差异:LLM追求最小化冗余信息的统计压缩,人类则保持适应性与上下文完整性 [17] 研究团队背景 - 由斯坦福大学与纽约大学联合开展,第一作者为斯坦福博士后Chen Shani,Yann LeCun作为合著者参与 [19][20][22] - LeCun是Meta首席AI科学家、CNN架构先驱,与Hinton、Bengio共获2018图灵奖,推动深度学习工业应用与自监督学习发展 [24][25][26][27][28] 补充信息 - 论文发布于arXiv(编号2505.17117),研究引发AI社区广泛讨论 [29]
重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!
机器之心· 2025-07-03 12:14
大模型推理机制研究 - 研究团队首次利用信息论方法揭示大模型内部推理动态,发现"思考词"出现时模型隐空间中关于正确答案的信息量会突然飙升数倍,形成真正的"信息高峰"与"决策拐点"[3] - 通过测量隐空间表征与最终答案的互信息(MI),证明推理过程中积累的互信息越高,模型回答正确的概率就越高,并给出错误概率的上下界数学表达式[5][6] - 在非推理模型上实验发现互信息波动更小、峰值现象更弱,表明推理能力强化训练会催生互信息峰值现象[7][9] 思考词汇的关键作用 - 研究发现互信息峰值时刻的隐空间表征解码后最常对应"思考词",包括反思型("Hmm")、逻辑型("Therefore")和行动型("Let")等三类[10][11][13] - 干预实验显示抑制思考词汇生成会显著降低模型在GSM8K、MATH等数学推理数据集的性能,而随机屏蔽普通词汇影响甚微,证实思考词汇对推理的关键作用[15][16] 性能提升方法 - 提出表征循环(RR)方法:在检测到思考词汇时将其表征重新输入模型进行额外计算,在AIME24上使DeepSeek-R1-Distill-LLaMA-8B准确率提升20%[18][20] - 开发基于思考词汇的测试时扩展(TTTS):强制模型以思考词汇开头继续生成,在token预算增加时持续提升性能,在6144预算时超越原始模型[21][22] 研究意义 - 首次清晰观测到大模型推理过程中的互信息峰值现象,为理解模型"黑箱"推理提供创新视角[24] - 发现思考词汇是信息高峰的语言化身,对模型推理性能具有关键影响[25] - 提出两种无需训练即可提升模型推理性能的方法,为后续研究提供新思路[26][27]
最新发现!每参数3.6比特,语言模型最多能记住这么多
机器之心· 2025-06-04 12:41
语言模型记忆与泛化研究 核心发现 - GPT系列模型的记忆容量约为每个参数3.6比特 达到此极限后模型停止记忆并转向泛化 [1][4] - 记忆与泛化的界限模糊 影响对模型能力和风险的评估 区分模型输出源于记忆训练数据还是理解潜在模式是关键挑战 [1] - 模型在数据量增加时持续记忆直至容量饱和 随后出现"顿悟"(grokking)现象 非预期记忆减少 泛化能力增强 [4] 研究方法 - 提出基于互信息(Mutual Information)的量化方法 通过信息论中的熵和条件熵定义记忆与泛化 [8][10] - 将记忆分为非预期记忆(特定数据集信息)和泛化(真实数据生成过程信息) 并给出数学定义 [5][7][12] - 采用Kolmogorov复杂度近似计算记忆量 通过压缩算法估计信息内容 [13][14] 实验设计 - 训练参数量50万至15亿不等的Transformer模型 建立模型容量、数据规模与成员推断关系的scaling law [6] - 使用合成序列测量容量 通过均匀采样标记构建数据集 精确计算香农信息 [20][21][23] - 测量显示模型容量与参数数量呈线性关系 每参数记忆量稳定在3.5-3.6比特 [27] 关键数据 - 800万参数模型在400万样本数据集上记忆量达2.95×10^6比特 800万样本数据集记忆量1.98×10^6比特 [28] - 训练精度从bfloat16提升至float32时 每参数记忆量从3.51比特增至3.83比特 但未达理论两倍增幅 [31][32] - 实验结果验证模型容量下限 梯度下降训练无法保证达到全局最优 [27]
当答案变得廉价时,好问题就是新的稀缺品
36氪· 2025-05-04 08:03
技术革新与行业重塑 - 摄影术的发明颠覆了19世纪巴黎美术学院定义的正统艺术标准,使绘画从现实主义转向对光影、质感和全新诠释的探索[2][3] - 大语言模型(LLM)如同当年的摄影术,通过降低答案获取成本重塑脑力劳动形态,其核心能力在于生成貌似可信的即时答案[15] - 印象派通过重新定义艺术问题(从"再现"转向"诠释")创造新价值,类比当前AI时代需要从答案消费转向问题设计[10][12][14] 信息经济学范式变迁 - 香农信息论揭示信息价值与其消除的不确定性成正比,而主流系统(如LLM)却逆向生成流畅但无实质的答案[22][23] - 在知识过剩环境中,注意力成为稀缺资源,系统设计缺陷导致数据收集超越边际效用[31][32] - 咨询业面临范式危机:答案商品化导致价值稀释,行业瓶颈转向问题界定能力[58][59][60] 认知框架重构 - 突破性创新(如CRISPR技术应用)往往源于对主流假设的质疑和问题框架的重构[37] - 人机协同优势体现在LLM连接跨领域知识的能力与人类提问能力的结合[39][41] - 香农理论的三阶影响展示好问题的链式反应:从通信工程扩展到生物学、经济学等跨学科领域[42] 能力体系转型 - 传统教育强调答案输出能力,而结构性不确定环境要求培养提问与探索能力[64] - 技能再培训若仅聚焦新答案掌握将失效,必须升级为问题设计能力培养[63] - 顶尖知识工作者需将不确定性转化为探索机会,构建动态认知地图而非静态知识库[64]