Workflow
信息论
icon
搜索文档
大模型的第一性原理:(二)信号处理篇
机器之心· 2026-01-30 16:49
文章核心观点 - 大语言模型的本质是将自然语言处理问题转换为信号处理问题,其核心在于将Token向量化,并在语义向量空间中通过内积等数值计算来建模语义相关性 [2] - 大模型通过预测下一个Token的训练目标,其本质是逼近人类水平的Granger因果推断 [30] - 从信息论角度看,大模型的最优语义编码问题可以归结为对定向信息(特别是倒向定向信息)的优化,而当前广泛应用的对比预测编码(CPC)算法是其上界的一种逼近 [15][18] - 从时间序列分析角度看,Transformer架构是一种非线性时变向量自回归模型 [23][28] - 信息论与计算理论通过“比特”(BIT)连接,而在AI时代,其核心概念正转变为“Token”(TOKEN) [33][36] 语义向量化与语义空间 - Token的语义嵌入(向量化)将自然语言处理转换为可进行数值计算的信号处理问题,从而能够定义内积来表示语义相关性,大幅降低计算复杂度 [2] - 一个Token的语义由定义在所有Token集合Ω上的概率分布描述,语义空间可建模为该概率空间,而语义向量空间则可定义为M维空间中的单位球面S^(M-1) [7] - 语义向量空间中,单个向量本身无意义,其与所有其他向量的内积(相对关系)才代表语义,这与经典信源编码有本质区别 [8] - 衡量两个语义向量空间(如不同语言)的结构差异,可使用基于最优传输理论的Gromov-Wasserstein距离 [8] - 语义向量空间存在最优压缩区间(甜点维数),Johnson-Lindenstrauss (JL) 引理为通过线性变换降维同时控制内积误差提供了数学原理 [10][11] 最优语义编码与信息论原理 - 针对预测下一个Token的任务,最优语义编码器是最大化条件互信息 `I(X_{i+1:n}; S_i | S_{1:i-1})` 的解 [13] - Google DeepMind团队提出的对比预测编码(CPC)算法,其优化的目标实际上是上述最优问题上界的一个变分下界(InfoNCE) [15] - 从信息论角度看,最优语义编码问题等价于最大化从未来Token序列到当前语义向量序列的“倒向定向信息” [18] - 定向信息及其倒向形式的计算和估计非常困难,这解释了CPC等现有方法选择优化其近似下界的原因 [19] Transformer的信号处理本质 - Transformer的注意力(Attention)机制在数学上可表述为一个非线性时变向量自回归时间序列模型 [21][23] - 注意力权重的计算基于双线性型和非线性softmax函数,体现了模型的时变性和非线性 [22][28] - 前馈神经网络(FFN)层被认为是大模型储存知识的关键位置,注意力模块的输出用于激活FFN中匹配的记忆模式 [24] - Transformer可视为更普遍的非线性时变向量自回归模型的特例,对其核心组件(如注意力矩阵A_ij和非线性函数Ψ)进行不同分解或修改,可推导出如Mamba等新架构 [29] 信号处理、信息论与计算理论的统一视角 - 信号处理是信息论原理在具体计算架构下的工程实现,它将抽象的符号信息表示为向量以进行数值计算 [32] - 计算理论(关注时间复杂度)与信息论(关注速率极限)的基本操作单位都是“比特”(BIT),BIT是连接计算与通信两大领域的桥梁 [33] - 在AI时代,信息论的基础性作用依然存在,但其核心概念正从“比特”转变为“Token”,这为理解大模型背后的数学原理提供了新的框架 [36]
谷歌AI掌门人、诺奖得主Demis:AGI 需要打破“金鱼记忆”,而谷歌无论泡沫破裂与否都将是赢家
AI科技大本营· 2026-01-29 18:05
文章核心观点 - Demis Hassabis认为AI进步从未停止,行业“撞墙论”是基于对数据枯竭的误解,现有技术仍有巨大优化空间[4] - 通往AGI可能需要一两个全新架构的突破,而非仅靠扩大现有模型规模,但大模型将是未来AGI系统的核心基石[5][6] - AGI应有科学定义,即能执行人类所有认知任务的系统,包括达到人类创造力巅峰和具备物理智能,预计距离实现还有5到10年[10][12][13][14] - 智能眼镜是AI交互的终极形态,能实现解放双手的“通用数字助理”,成熟产品可能很快面世[3][18][19][22] - AI商业模式需谨慎,维护用户信任至关重要,广告模式若损害信任将摧毁产品价值[22][23][24] - 对于行业竞争与“泡沫论”,拥有深厚技术栈和庞大业务底座的公司无论行业周期如何都将处于有利位置[3][26][27] - 从哲学视角看,信息是宇宙最基本单元,AI是宇宙信息处理过程的加速器,将帮助人类解决重大科学问题[29][30][31] - AI不会取代人类,而是承担繁重信息处理工作,赋能人类专注于更高级的创造与探索,类似望远镜对天文学家的作用[31][32] 对AI发展现状与未来的看法 - 一年前行业质疑AI进步停滞,但DeepMind内部从未质疑,一直看到性能在稳步、巨大的提升[4] - 通过预训练、后训练、思维链等现有技术的微调与组合创新,仍能从现有架构和数据中“榨取”出巨大提升空间[5] - 当前大语言模型存在“金鱼记忆”的根本性局限,会话结束便“失忆”,持续学习能力是当前短板[5][8] - 解决持续学习问题已有线索,关键在于让模型在“出厂”后与用户交互中继续学习并改变自身,而不仅是将数据放入上下文窗口[8] - 真正的AGI需具备持续学习、高效记忆机制以及为长远目标进行多步推理的长期规划与推理能力[11] - AGI需包含物理智能,即与物理世界交互的灵巧性,这是当前机器人的短板[13] - 超级智能是指能完成人类生理结构无法做到之事(如在14维空间思考),是AGI之后的话题[14] - 多模态模型(如视频生成模型)因构建了物理世界模型、理解因果关系,在通往AGI的道路上可能比纯语言模型更关键[15] 对产品形态与商业化的思考 - 当前举着手机使用多模态AI的体验笨重,智能眼镜才是解放双手、实现无缝“通用数字助理”的最佳形态[16][17][19] - 谷歌正与Warby Parker、Gentle Monster及三星等伙伴合作打造下一代智能眼镜设备,成熟产品可能今年就能看到[22] - 目前没有在Gemini App中加入广告的计划,维护用户信任是首要原则[22] - 在某些特定场景(如旅行推荐)下,广告可作为有用信息整合,但必须建立在用户完全知情且可控的前提下[23] - 商业模式创新应是“原生”的,不能损害用户对AI助理的核心信任[24] 对行业竞争与可持续性的评估 - 认可Anthropic的Claude是优秀模型,尤其在编程领域,但Gemini 3的编程能力同样有信心[25] - AI的竞争是更广泛的战场,包括多模态搜索、YouTube创作工具、安卓系统整合等,谷歌正将AI深度整合进其庞大产品线中[25][26] - 关于行业崩溃的理论(训练回报率下降、推理成本趋近免费导致基建过剩)是合理推演,但并非最可能发生的情况[26] - 行业存在泡沫现象,尤其是一些仅凭PPT融资的初创公司,其狂热不可持续[26] - 像Alphabet这样拥有深厚技术积累和庞大业务底座的公司,无论泡沫是否破裂都将处于有利位置,因为现有技术已足以驱动其核心业务的效率提升与体验变革[3][27] 对AI本质与人类未来的哲学观点 - 信息是宇宙最基本的单元,而非能量或物质,宇宙演化可被视为信息处理过程[29] - 生命系统本质上是信息处理系统,在抵抗熵增,进化是筛选能稳定保存和复制信息结构的过程[29] - AI是宇宙信息处理过程的加速器,帮助人类更高效地解构、理解和重组信息[29] - AlphaFold解决蛋白质折叠问题是“信息论”视角的胜利,通过数据的信息拓扑结构找到了规律[30] - AI将帮助人类破解物质、能量、生命背后的信息密码,从而发现新材料、设计新药、解决气候变化[31] - AI不会使人类变得多余,它将承担繁重枯燥的信息处理工作,让人类腾出时间进行更高级的科学思考与艺术创造[31][32] - AI的赋能类似工业革命,人类将重新定义“有意义的工作”,并适应新的角色[32]
信息论如何成为复杂系统科学的核心工具
36氪· 2025-12-24 16:51
信息论作为复杂系统研究的基石 - 信息论起源于通信领域,因其能跨领域量化组件之间、系统与环境、整体与部分的互动,正逐渐成为复杂系统研究领域不可或缺的工具 [1] - 信息论提供了一套强大而普适的数学语言,用于描述、量化和理解由大量组件动态互动构成的复杂系统,这些系统的集体行为因非线性、涌现、自适应等特征而难以预测 [1] - 该综述系统阐述了信息理论为何以及如何成为复杂系统科学的基石,并详解其核心概念、进阶工具与实际应用 [1] 信息论核心度量指标 - **熵**:香农熵H(X) = -Σp(x)logp(x),衡量随机变量的不确定性或“惊讶”程度的期望值,在神经科学、生态学、金融学中分别用于衡量神经元响应可变性、物种分布不确定性、股票价格波动性 [3][5] - **联合熵与条件熵**:联合熵H(X,Y)衡量两个变量的联合不确定性,条件熵H(Y|X)表示已知X后Y剩余的不确定性,关系为H(X,Y) = H(X) + H(Y|X) [6] - **互信息**:I(X;Y) = H(X) + H(Y) - H(X,Y),量化两个变量之间的统计依赖性,范围从0到min(H(X), H(Y)),能捕捉任何形式的统计依赖,包括非线性关系 [7][8] - **相对熵**:Kullback-Leibler散度D_KL(p || q)衡量两个概率分布p和q之间的“距离”,互信息可表示为I(X;Y) = D_KL( p(x,y) || p(x)p(y) ) [10] 信息动力学与动态特征刻画 - **传递熵**:是互信息在时间序列上的推广,衡量在已知Y自身过去历史的情况下,X的过去历史能为预测Y的当前状态提供多少额外信息,即定向信息流,可用于推断因果关系方向 [13][14] - **主动信息存储**:衡量系统组成部分的过去历史与其当前状态相关的信息量,量化系统内部记忆或信息存储的能力,在金融市场中,低AIS值支持有效市场假说,高AIS值则暗示存在可预测模式 [17] - **整合信息论**:核心度量Φ试图衡量系统各部分整合信息的程度,即整个系统产生的信息大于其各部分信息之和的程度,并与意识程度相联系,但Φ的计算在实践中极其困难 [19][20] - **统计复杂性与因果态**:通过将能预测相同未来状态的所有历史归入同一个“因果态”,对系统动态过程进行最优压缩表示,统计复杂性是这些因果态分布的熵,衡量系统为准确预测未来必须记住的过去信息量 [22][23] 信息分解:协同、冗余与特有信息 - **部分信息分解**:旨在将总信息I(S; X,Y)分解为四个部分:冗余信息、X的特有信息、Y的特有信息、协同信息,公式为I(X1,X2;Y)=Red(X1,X2→Y)+Unq(X1→Y∣X2)+Unq(X2→Y∣X1)+Syn(X1,X2→Y) [26][27][28] - **应用与推广**:在神经科学中,PID可用于研究神经元群体如何冗余地或协同地编码刺激,PED是PID的自然推广,直接分解联合熵H(X1,…,XN),无需区分输入与输出 [30][31] - **网络构建**:基于成对相互关系的二元网络无法描述协同/冗余,需引入包含三元协同超边的超图或单纯流形 [35] 复杂系统的整合、分离与网络刻画 - **整合与分离的平衡**:复杂系统的核心特征在于其“整合”或“分离”的动力学,例如大脑各功能区分离但整合为统一意识,公司各部门分离但由中央办公室整合,这种平衡是一种多尺度现象 [36] - **复杂性度量**:TSE-复杂性通过遍历所有可能的子系统划分,检测“部分”与“剩余”之间的互信息分布,具有中等特征的系统TSE达峰值,表明系统处于信息处理能力最强的混沌边缘 [37] - **O-信息与S-信息**:O-信息Ω > 0表示系统以冗余主导,稳健性高;Ω < 0表示以协同主导,灵活性高但脆弱性高;S信息Σ反映总依赖密度,高Σ表示节点深度嵌入网络 [38] - **集成信息度量**:ΦR衡量系统“因果不可还原性”,是系统作为一个统一体进行信息处理程度的量化指标,可作为人工系统是否具备“统一认知架构”的可操作检验 [39][40] 实际应用、困难与未来方向 - **估计困难与偏差**:从有限数据中估计概率分布与信息量存在偏差,离散情况下的插件估计会导致熵被低估、互信息被高估,需使用校正方法;连续数据估计更复杂,主流方法包括粗粒化、点过程、序数嵌入及非参数密度法 [41][42] - **神经信息估计器**:在大数据时代,神经信息估计器使用神经网络来估计信息论指标,如MINE,代表了一种在复杂性科学中尚未得到充分探索的新方法 [43] - **未来研究方向**:用Φᵣ、O-信息等引导进化算法,通过信息量作为目标函数来引导机器学习或机器人行为涌现,是复杂系统与信息论结合的未来方向 [43]
信息论如何成为复杂系统科学的核心工具
腾讯研究院· 2025-12-24 16:33
信息论作为复杂系统研究的基石 - 文章核心观点:信息论因其能跨领域量化组件、系统与环境、整体与部分之间的互动,正成为描述、量化和理解复杂系统(如气候变化、金融市场、大脑认知)不可或缺的普适数学语言和工具箱 [2] - 本文旨在对一篇发表于《Physics Reports》的重要综述进行解读,系统阐述信息理论为何及如何成为复杂系统科学的基石,并详解其核心概念、进阶工具与实际应用 [2] 信息理论的基石:核心概念与直觉构建 - 熵是信息论最基础的概念,由香农提出,用于量化不确定性 [3] - 香农熵的数学定义为 H(X) = -Σp(x)logp(x),单位通常为比特,衡量在得知结果前对随机变量取值的“惊讶”程度期望值 [5][7] - 熵在多个领域有应用:神经科学中衡量神经元放电序列的可变性,生态学中反映物种空间分布的不确定性,金融学中表征股票价格的波动性 [8] - 联合熵 H(X,Y) 衡量两个随机变量联合分布的不确定性,总是大于等于单个变量的熵,但小于等于二者熵之和 [9] - 条件熵 H(Y|X) 表示在已知 X 取值的情况下,对 Y 仍存在的不确定性,若 X 和 Y 完全独立则 H(Y|X) = H(Y),若 Y 完全由 X 决定则 H(Y|X) = 0 [9] - 互信息 I(X;Y) 是信息论的核心度量,衡量通过观察一个变量能获得的关于另一个变量的平均信息量,量化统计依赖性 [10] - 互信息能捕捉任何形式的统计依赖(包括非线性、非单调关系),而皮尔森相关系数只能捕捉线性关系,例如 Y = X² 的关系相关系数可能为0但互信息值很高 [10] - 互信息在脑网络中可表示两个脑区活动的同步性,在基因调控网络中可表示两个基因表达水平的协同变化 [10] - 相对熵(Kullback-Leibler散度)衡量两个概率分布 p 和 q 之间的“距离”,互信息 I(X;Y) 等于联合分布 p(x,y) 与假设独立时的分布 p(x)p(y) 之间的相对熵 [13] 信息论如何直接描摹复杂系统的动态特征 - 信息动力学旨在量化信息在系统内部及与环境之间的产生、存储、传递和修改 [15] - 传递熵是互信息在时间序列上的推广,衡量定向信息流,即在已知 Y 自身过去历史的情况下,X 的过去历史能为预测 Y 的当前状态提供多少额外信息 [16] - 在神经科学中,传递熵可用于推断脑区间因果关系的方向,强于格兰杰因果的非方向量化 [16] - 主动信息存储衡量系统组成部分的过去历史与其当前状态相关的信息量,量化系统内部记忆或信息存储的能力 [18] - 在金融市场中,若有效市场假说成立,股价收益率序列接近随机游走,计算出的主动信息存储值会非常低接近零,反之若某只股票的主动信息存储值持续较高,则可能意味着存在可预测的模式 [18] - 整合信息论由神经科学家 Giulio Tononi 提出,试图度量意识,其核心思想是系统的意识程度取决于其各部分整合信息的程度,即整个系统产生的信息大于其各部分信息之和的程度 [20] - 例如,高分辨率数码相机传感器各部分间几乎没有因果相互作用,整合信息 Φ 非常低,而大脑不同区域以复杂方式相互作用,整合信息 Φ 被认为非常高 [20] - 整合信息论最大的问题在于 Φ 的计算在实践上对于像大脑这样的系统极其困难,因此存在巨大争议 [21] - 统计复杂性衡量系统为准确预测未来必须记住的关于过去的最小信息量,一个具有中等统计复杂性的系统通常具有丰富的内部结构和动态模式 [25] 信息分解:解开信息的协同与冗余 - 部分信息分解旨在将互信息 I(S; X,Y) 分解为冗余信息、由 X 和 Y 各自提供的特有信息以及协同信息四个部分 [29][30][31][32] - 当源数量 N>2 时,部分信息分解迅速复杂化,Williams & Beer 引入了冗余格来枚举所有信息分配的可能“原子” [33] - 在神经科学中,使用部分信息分解可以研究神经元群体是如何冗余地编码刺激以提高鲁棒性,又是如何协同地编码更复杂的特征 [35] - 部分信息分解为从数据中重建网络结构推断提供了工具,能够发现非线性相互作用,且对数据的分布假设要求较低 [35] - 部分熵分解是部分信息分解的自然推广,直接分解联合熵 H(X1,…,XN),无需区分输入与输出 [36] 从成对关系到信息网络 - 网络是复杂系统建模的通用语言,可分为物理网络和统计网络 [40] - 统计网络中的边对应统计依赖性,需从数据推断,可使用信息论中的互信息等度量刻画 [40] - 统计网络按是否包含方向分为两类:功能连接网络由无向图构成,边权重为变量间的互信息,刻画瞬时共变;有效连接网络由有向图构成,边权重为变量之间的传递熵,刻画定向信息流 [40] - 当系统中存在协同或冗余时,常规的基于成对相互关系的二元网络将无法描述,此时需引入超图或单纯流形 [40] 用信息论刻画复杂系统的整合与分离 - 复杂系统的核心特征在于其可“整合”或“分离”,这种平衡对于健康的大脑功能、成功的公司运营乃至全球政治都至关重要 [42][43] - Tononi、Sporns 与 Edelman 提出的 TSE-复杂性通过遍历所有可能的子系统划分,检测“部分”与“剩余”之间的互信息分布,来衡量系统的整合与分离平衡 [44] - 具有模块化网络(模块内高整合、模块间弱连接)的系统,其互信息随子系统大小非线性上升,TSE 达到峰值,表明系统处于信息处理能力最强的临界态 [44] - Rosas 等人提出的 O-信息与 S-信息进一步分解复杂性的成分:O-信息 > 0 表示系统以冗余主导,对应稳健性高、适应性低;O-信息 < 0 表示系统以协同主导,对应灵活性高、脆弱性高 [45] - Balduzzi 和 Tononi 提出的集成信息度量 Φᵣ 旨在捕捉系统“整体大于部分之和”的不可还原性信息结构,是系统“因果不可还原性”的量化指标 [46] - Φᵣ 可作为人工系统(如大语言模型、机器人)是否具备“统一认知架构”的可操作检验 [46] - 对于多组件系统,可通过最小信息分割遍历所有二分划分来计算 Φᵣ 的最小值,该值反映系统最脆弱的整合环节,是整体整合能力的下界 [47] 使用信息论的实际困难 - 实际应用时需从有限数据中估计概率分布与信息量,估计偏差会影响数值精度并系统性扭曲高阶结构推断 [49] - 离散情况下的插件估计存在系统偏倚,会导致熵被低估而互信息被高估,应对方法包括 Miller–Madow 校正、置换 null 模型、贝叶斯估计器 [49] - 连续数据计算更复杂,主流方法包括粗粒化直方图分箱、点过程、序数嵌入,其中粗粒化方法易用但信息损失严重已不推荐 [49] - 连续数据计算中,参数法仅捕获线性依赖,非参数密度法基于 k-近邻距离,无需假设分布,支持局部信息量估计,并可扩展至条件互信息、部分信息分解局部项 [50] - 信息论衡量的有向指标不代表因果关系,而依赖先验知识提供的因果图假设,多个不同因果图可产生相同信息结构 [50] - 信息论是关于不确定性中推理的数学,描述我们如何减少不确定性,信息总是相对于观察者模型,无绝对“系统自身的信息” [50] 未来方向与总结 - 在大数据时代,需要新方法来学习元素组之间的信息依赖关系,神经信息估计器使用神经网络来估计信息论指标,代表了一种在复杂性科学中尚未得到充分探索的新方法 [52] - 在机器学习中,信息论是实现学习高效算法的工具,而在复杂系统中,信息论度量是描述系统结构的描述性统计量,并且本身可以是最终目标 [53] - 用 Φᵣ、O-信息等引导进化算法,通过信息量作为目标函数是复杂系统与信息论结合的未来研究方向 [53] - 总结来看,从香农熵到整合信息分解/部分熵分解,信息理论提供了统一语言来刻画复杂系统的多尺度过程,是理解复杂系统结构和动态的自然工具 [53]
每日钉一下(再平衡策略,为什么被称为投资领域的免费午餐?)
银行螺丝钉· 2025-12-20 22:02
再平衡策略的原理与优势 - 再平衡策略旨在解决投资组合中不同资产因涨跌不同步而导致初始配置比例偏离的问题 例如初始50%资金投入品种A 50%投入品种B 一段时间后A上涨较多 其比例就会超过50% [6] - 该策略通过定期调整资产比例 使其恢复至初始目标配置 从而从资产的价格波动中获利 [6][7] 香农的投资案例研究 - 信息论创始人香农曾对投资感兴趣 并在1966-1971年间于麻省理工学院举办讲座 主题是利用股票波动赚钱 [7][8] - 香农举例说明:假设一只股票长期收益为0但存在波动 第一年投入500元股票和500元现金 若股票第一年腰斩 股票价值变为250元 现金仍为500元 此时进行再平衡 需从现金中拿出125元买入股票 使组合变为375元股票和375元现金 [8]
大模型「越想越错」?人大&腾讯团队用信息论揭示:什么时候该想、什么时候别想
机器之心· 2025-12-19 14:38
研究背景与核心问题 - 当前大模型的“推理能力”成为行业热点,o1、R1、QwQ等强化学习推理模型展现出强大的多步推理能力[2] - 但现有模型存在“过度思考”问题,推理链条冗长,有时甚至“越想越错”,导致效率低下并可能引入噪声[3][4] 研究视角与核心发现 - 研究团队从信息论视角切入,使用“熵”与“互信息”等底层指标重新衡量模型思考的价值[5][6] - 研究发现,过长的推理链在技术层面会像在噪声信道中添加冗余比特,超过模型“推理容量”后会导致错误积累[19] - 在语义层面,随着推理链延长,单步推理带来的信息增益迅速递减,冗余步骤更多是在制造噪声[19] - 在实践层面,更长的推理链并不总带来更好结果,反而导致边际收益下降、token消耗增加、延迟和算力开销增大[19] - 在GSM8K数据集上的实验表明,错误答案往往伴随更长的推理链和更高的信息偏差(InfoBias)[20] 提出的解决方案:Adaptive Think - 研究团队提出了Adaptive Think机制,其核心理念是通过熵来衡量模型推理过程中的不确定性,并在模型达到足够置信度时主动终止推理[7][28] - 该机制无需训练,可直接在现有模型上部署[8] - 其工作方式是让模型进行“自我监控式推理”,每完成一步推理后计算答案分布的平均熵,当熵低于预设阈值α时即停止推理并输出答案[29] - 该策略使模型能根据任务难度灵活调整思考深度,实现“有必要才深思,无必要就直答”[27][34] 实验验证与性能表现 - 在8个大模型(5个非推理模型和3个推理模型)和6个不同推理类型的基准测试上进行了评估[33] - 在数学任务GSM8K与AIME2025上,Adaptive Think在保持准确率的同时,将平均Token消耗减少了一半以上(40.01%-68.25%)[33] - 例如,在QwQ-32B模型上,相比传统的Vanilla Think模式,Adaptive Think在AIME2025上将Token使用量减少了68.25%,而准确率还提高了0.93%[33] - 在知识、逻辑、常识等任务上,Adaptive Think同样表现优异,在MMLU-Pro、CommonsenseQA、ProntoQA、MuSR等多个数据集上,QwQ-32B的平均准确率提升1.23%,平均token减少42.52%[35] - 在依赖常识直觉的CommonsenseQA任务上,DeepSeek-R1-32B模型采用Adaptive Think后,准确率几乎不变,但Token消耗减少了超过80%[36] 对不同任务推理需求的分析 - 分析揭示了不同任务对推理深度的不同需求:数学题(如AIME2025)需要更深的推理链;常识题(如CQA)模型几乎一开始就知道正确答案;多步软推理(如MuSR)的有效推理集中在前半段[42] - 这意味着真正成熟的推理大模型,应能“自动匹配任务难度”,而非输出固定长度的推理[44] 研究意义与行业启示 - 该研究提出了一个重要理念:AI推理的未来不在“更长”,而在“更聪明”[45] - 未来的大模型应该:1)在需要深度逻辑时能推理得足够严谨;2)在只需直觉判断时不浪费token;3)能动态适应任务难度;4)在推理过程中实时自我评估,随时刹车[45] - 如果说强化学习让模型学会了“怎么想”,那么Adaptive Think让模型学会了“想多久”,这是推理大模型走向成熟的关键一步[47] - 这项工作既解释了“为什么模型会过度推理”,也提供了“如何简单有效地解决”的方案[46]
一文讲透Agent的底层逻辑
虎嗅· 2025-10-22 22:47
AI Agent核心观点 - AI Agent能力的质变关键不在于底层大模型智力的增长,而在于围绕模型设计的有效"认知流程" [3] - 行业对Agent存在两种认知误区:过度神秘化或过度简化,导致沟通成本很高 [1][2] - 从Chatbot到Agent的进化是从"优雅的文本统计模仿"转向"可靠的行动派"的本质转变 [47][52] Agent能力演进阶段 - 阶段一原生天才:对应基础API调用,一次性黑盒生成答案,无法保证可靠性 [20] - 阶段二思考者:引入思维链(CoT)流程,将复杂任务分解为线性推理子任务,降低幻觉概率 [22] - 阶段三细心人:通过自我反思(Reflexion)框架实现"先行动、再复盘、后修正"的迭代流程,在HumanEval代码生成任务上达到91%准确率,超越GPT-4的80%记录 [25][26] - 阶段四战略家:具备规划能力,将宏大目标分解为逻辑清晰的子任务清单,提升执行效率和确定性 [29] - 阶段五学者:通过ReAct框架实现思考->行动->观察循环,将AI从封闭大脑转变为能与现实世界互动的行动者 [31][34][38] 流程驱动的三重价值 - 结构价值:用规划(Planning)和思维链(CoT)等流程为AI思考建立逻辑脚手架,对抗思维混沌 [56][59] - 迭代价值:通过反思(Reflection)和总结(Summarization)流程为记忆打造压缩算法,实现长期记忆演化 [61][64] - 交互价值:通过工具使用(Tool Use)连接现实世界,确保获取真实质量而非高质量幻觉 [65][67] 理论基础与科学原理 - 控制论视角:Agent工作流程对应闭环控制系统,通过反馈机制实现从开环到闭环的进化 [74][78][84] - 信息论视角:Agent工作是通过行动获取信息进行熵减的过程,系统性地消除不确定性 [86][90][91] - 两个理论共同为Agent框架的可靠性与有效性提供坚实科学基石 [94] 开发者角色转变 - 从"提示词工程师"转变为"Agent流程架构师",核心价值体现在思考结构、记忆机制和世界交互范式的设计上 [72][98][99] - 新角色三大核心职责:设计AI思考流程、赋能AI行动工具、构建AI决策上下文 [100][101][102] - 行业竞争力核心从模型参数大小转向智能流程优劣,LLM应用未来取决于流程设计 [96] 性能工程与架构演进 - 架构选型与剪枝:对简单场景使用LLM内置工具调用范式,降低token消耗和延迟 [106] - 并行化执行:通过异步I/O实现并行工具调用,将总耗时从"所有任务耗时之和"缩短为"最长任务耗时" [106] - 模型特化与路由:采用混合模型策略,轻量模型处理高频任务,重量模型处理复杂推理 [115] - 高效记忆架构:设计精准的记忆检索机制,以最低Token成本注入最关键信息 [115] 前沿架构探索方向 - 认知调度中心:实现智能工作流编排,如Anthropic的"Skills"功能允许模型自主选择、组合并调用多个工具 [108] - 规约驱动分层架构:通过技术规约(Specification)实现多Agent可靠协作,进化为可追溯的现代软件工程 [109] - 即时代码生成:让Agent从"使用工具"进化到"创造工具",通过CodeAct等框架动态生成代码扩展能力边界 [110]
Agent 一年半开发复盘:大家对 Agent 的理解有错位,有效的「认知流程」很关键
Founder Park· 2025-10-22 20:46
AI Agent核心观点 - AI Agent能力的质变关键不在于大模型智力增长,而在于围绕模型设计的认知流程[2] - 从Chatbot到Agent的进化本质是从静态生成转向动态执行流程[33] - 行业竞争核心已从模型参数转向智能流程设计优劣[62] Agent能力演进路径 - 学霸成长比喻展示Agent五阶段演进:原生天才→思考者→细心人→战略家→学者[15] - 思维链(CoT)强制模型分解复杂任务为线性推理子任务,降低幻觉概率[18] - 自我反思(Reflexion)框架引入"先行动-再复盘-后修正"迭代流程,HumanEval代码任务准确率达91%超越GPT-4的80%[20] - 规划能力将宏大目标分解为逻辑清晰子任务清单,提升执行确定性[22] - ReAct框架通过思考→行动→观察循环将AI从封闭大脑变为现实世界行动者[26] 流程设计三重价值 - 结构价值:规划流程在宏观层面建立逻辑脚手架,思维链在微观层面确保推理严谨[36][37] - 迭代价值:反思流程对记忆进行高效压缩,用极小上下文空间保留关键决策信息[42] - 交互价值:工具作为流程神经触手,通过ReAct框架确保AI获取真实世界信息[46][47] 科学理论基础 - 控制论视角:Agent实现从开环系统到闭环系统进化,通过反馈机制持续逼近目标[53][54] - 信息论视角:Agent工作本质是熵减过程,通过行动获取信息消除不确定性[59][60] 开发者角色转变 - 提示词工程师角色正成为历史,新兴角色是Agent流程架构师[64][65] - 新角色三大核心职责:设计AI思考流程、赋能行动工具、构建决策上下文[66][68][69] - 基础Think-Act-Observe循环是Agent心跳,架构师需在此基础上构建大脑与神经系统[70] 性能工程优化 - 架构剪枝:简单场景使用LLM内置工具调用范式降低延迟[70] - 并行化执行:对无依赖子任务实施并行工具调用,将总耗时缩短为最长任务耗时[71] - 模型路由:轻量模型处理高频任务,重量模型仅用于复杂推理节点[71] - 记忆架构:高效检索机制精准提取关键时刻所需知识[72] 前沿架构方向 - 认知调度中心:Anthropic Skills功能实现智能工作流编排,模型自主规划多工具协作[73] - 规约驱动分层:规划Agent生成技术规约作为执行Agent工作契约[74] - 即时代码生成:CodeAct框架让Agent动态创建工具,实现能力边界动态扩展[75]
超越ZIP的无损压缩来了,华盛顿大学让大模型成为无损文本压缩器
36氪· 2025-10-11 18:47
核心技术原理 - 利用大型语言模型作为强大的概率预测引擎,将自然语言的高维分布转换为结构化的概率信息以实现高效压缩[5] - 核心方法为基于排序的编码,即存储目标词元在LLM预测的概率排序列表中的排名,而非词元本身[6] - 解压时使用相同的LLM和上下文重现概率分布,通过存储的排名准确选择对应词元,实现无损文本恢复[6] 性能表现 - 在维基百科、小说文本和科学摘要等多种数据集上,其压缩率均优于传统压缩工具如ZIP和LZMA[2] - 与其他以LLM为基础的闭源压缩系统相比,表现出同等甚至更优的性能[2] 项目发展与现状 - 项目灵感源于实验室内部讨论,随着业界在确定性LLM推理方面取得突破,研究团队快速构建了原型并证明可行性[5] - 该项目已经开源,主要作者是来自上海交通大学ACM班的本科生Yi Pan,目前正在华盛顿大学实习[4] 当前挑战与局限 - 存在效率问题,LLM推理的计算复杂度与序列长度成二次方关系,长序列推理受内存带宽限制[7] - 采用分块处理文本策略以提高GPU利用率并降低计算开销[7] - 处理速度因严重依赖大规模模型推理而远低于传统压缩算法[7] - 当前实现主要针对自然语言,如何扩展到图像、视频或二进制数据等其他模态是未来探索方向[9]
重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!
机器之心· 2025-07-03 12:14
大模型推理机制研究 - 研究团队首次利用信息论方法揭示大模型内部推理动态,发现"思考词"出现时模型隐空间中关于正确答案的信息量会突然飙升数倍,形成真正的"信息高峰"与"决策拐点"[3] - 通过测量隐空间表征与最终答案的互信息(MI),证明推理过程中积累的互信息越高,模型回答正确的概率就越高,并给出错误概率的上下界数学表达式[5][6] - 在非推理模型上实验发现互信息波动更小、峰值现象更弱,表明推理能力强化训练会催生互信息峰值现象[7][9] 思考词汇的关键作用 - 研究发现互信息峰值时刻的隐空间表征解码后最常对应"思考词",包括反思型("Hmm")、逻辑型("Therefore")和行动型("Let")等三类[10][11][13] - 干预实验显示抑制思考词汇生成会显著降低模型在GSM8K、MATH等数学推理数据集的性能,而随机屏蔽普通词汇影响甚微,证实思考词汇对推理的关键作用[15][16] 性能提升方法 - 提出表征循环(RR)方法:在检测到思考词汇时将其表征重新输入模型进行额外计算,在AIME24上使DeepSeek-R1-Distill-LLaMA-8B准确率提升20%[18][20] - 开发基于思考词汇的测试时扩展(TTTS):强制模型以思考词汇开头继续生成,在token预算增加时持续提升性能,在6144预算时超越原始模型[21][22] 研究意义 - 首次清晰观测到大模型推理过程中的互信息峰值现象,为理解模型"黑箱"推理提供创新视角[24] - 发现思考词汇是信息高峰的语言化身,对模型推理性能具有关键影响[25] - 提出两种无需训练即可提升模型推理性能的方法,为后续研究提供新思路[26][27]