信息论
搜索文档
一文讲透Agent的底层逻辑
虎嗅· 2025-10-22 22:47
AI Agent核心观点 - AI Agent能力的质变关键不在于底层大模型智力的增长,而在于围绕模型设计的有效"认知流程" [3] - 行业对Agent存在两种认知误区:过度神秘化或过度简化,导致沟通成本很高 [1][2] - 从Chatbot到Agent的进化是从"优雅的文本统计模仿"转向"可靠的行动派"的本质转变 [47][52] Agent能力演进阶段 - 阶段一原生天才:对应基础API调用,一次性黑盒生成答案,无法保证可靠性 [20] - 阶段二思考者:引入思维链(CoT)流程,将复杂任务分解为线性推理子任务,降低幻觉概率 [22] - 阶段三细心人:通过自我反思(Reflexion)框架实现"先行动、再复盘、后修正"的迭代流程,在HumanEval代码生成任务上达到91%准确率,超越GPT-4的80%记录 [25][26] - 阶段四战略家:具备规划能力,将宏大目标分解为逻辑清晰的子任务清单,提升执行效率和确定性 [29] - 阶段五学者:通过ReAct框架实现思考->行动->观察循环,将AI从封闭大脑转变为能与现实世界互动的行动者 [31][34][38] 流程驱动的三重价值 - 结构价值:用规划(Planning)和思维链(CoT)等流程为AI思考建立逻辑脚手架,对抗思维混沌 [56][59] - 迭代价值:通过反思(Reflection)和总结(Summarization)流程为记忆打造压缩算法,实现长期记忆演化 [61][64] - 交互价值:通过工具使用(Tool Use)连接现实世界,确保获取真实质量而非高质量幻觉 [65][67] 理论基础与科学原理 - 控制论视角:Agent工作流程对应闭环控制系统,通过反馈机制实现从开环到闭环的进化 [74][78][84] - 信息论视角:Agent工作是通过行动获取信息进行熵减的过程,系统性地消除不确定性 [86][90][91] - 两个理论共同为Agent框架的可靠性与有效性提供坚实科学基石 [94] 开发者角色转变 - 从"提示词工程师"转变为"Agent流程架构师",核心价值体现在思考结构、记忆机制和世界交互范式的设计上 [72][98][99] - 新角色三大核心职责:设计AI思考流程、赋能AI行动工具、构建AI决策上下文 [100][101][102] - 行业竞争力核心从模型参数大小转向智能流程优劣,LLM应用未来取决于流程设计 [96] 性能工程与架构演进 - 架构选型与剪枝:对简单场景使用LLM内置工具调用范式,降低token消耗和延迟 [106] - 并行化执行:通过异步I/O实现并行工具调用,将总耗时从"所有任务耗时之和"缩短为"最长任务耗时" [106] - 模型特化与路由:采用混合模型策略,轻量模型处理高频任务,重量模型处理复杂推理 [115] - 高效记忆架构:设计精准的记忆检索机制,以最低Token成本注入最关键信息 [115] 前沿架构探索方向 - 认知调度中心:实现智能工作流编排,如Anthropic的"Skills"功能允许模型自主选择、组合并调用多个工具 [108] - 规约驱动分层架构:通过技术规约(Specification)实现多Agent可靠协作,进化为可追溯的现代软件工程 [109] - 即时代码生成:让Agent从"使用工具"进化到"创造工具",通过CodeAct等框架动态生成代码扩展能力边界 [110]
Agent 一年半开发复盘:大家对 Agent 的理解有错位,有效的「认知流程」很关键
Founder Park· 2025-10-22 20:46
AI Agent核心观点 - AI Agent能力的质变关键不在于大模型智力增长,而在于围绕模型设计的认知流程[2] - 从Chatbot到Agent的进化本质是从静态生成转向动态执行流程[33] - 行业竞争核心已从模型参数转向智能流程设计优劣[62] Agent能力演进路径 - 学霸成长比喻展示Agent五阶段演进:原生天才→思考者→细心人→战略家→学者[15] - 思维链(CoT)强制模型分解复杂任务为线性推理子任务,降低幻觉概率[18] - 自我反思(Reflexion)框架引入"先行动-再复盘-后修正"迭代流程,HumanEval代码任务准确率达91%超越GPT-4的80%[20] - 规划能力将宏大目标分解为逻辑清晰子任务清单,提升执行确定性[22] - ReAct框架通过思考→行动→观察循环将AI从封闭大脑变为现实世界行动者[26] 流程设计三重价值 - 结构价值:规划流程在宏观层面建立逻辑脚手架,思维链在微观层面确保推理严谨[36][37] - 迭代价值:反思流程对记忆进行高效压缩,用极小上下文空间保留关键决策信息[42] - 交互价值:工具作为流程神经触手,通过ReAct框架确保AI获取真实世界信息[46][47] 科学理论基础 - 控制论视角:Agent实现从开环系统到闭环系统进化,通过反馈机制持续逼近目标[53][54] - 信息论视角:Agent工作本质是熵减过程,通过行动获取信息消除不确定性[59][60] 开发者角色转变 - 提示词工程师角色正成为历史,新兴角色是Agent流程架构师[64][65] - 新角色三大核心职责:设计AI思考流程、赋能行动工具、构建决策上下文[66][68][69] - 基础Think-Act-Observe循环是Agent心跳,架构师需在此基础上构建大脑与神经系统[70] 性能工程优化 - 架构剪枝:简单场景使用LLM内置工具调用范式降低延迟[70] - 并行化执行:对无依赖子任务实施并行工具调用,将总耗时缩短为最长任务耗时[71] - 模型路由:轻量模型处理高频任务,重量模型仅用于复杂推理节点[71] - 记忆架构:高效检索机制精准提取关键时刻所需知识[72] 前沿架构方向 - 认知调度中心:Anthropic Skills功能实现智能工作流编排,模型自主规划多工具协作[73] - 规约驱动分层:规划Agent生成技术规约作为执行Agent工作契约[74] - 即时代码生成:CodeAct框架让Agent动态创建工具,实现能力边界动态扩展[75]
超越ZIP的无损压缩来了,华盛顿大学让大模型成为无损文本压缩器
36氪· 2025-10-11 18:47
核心技术原理 - 利用大型语言模型作为强大的概率预测引擎,将自然语言的高维分布转换为结构化的概率信息以实现高效压缩[5] - 核心方法为基于排序的编码,即存储目标词元在LLM预测的概率排序列表中的排名,而非词元本身[6] - 解压时使用相同的LLM和上下文重现概率分布,通过存储的排名准确选择对应词元,实现无损文本恢复[6] 性能表现 - 在维基百科、小说文本和科学摘要等多种数据集上,其压缩率均优于传统压缩工具如ZIP和LZMA[2] - 与其他以LLM为基础的闭源压缩系统相比,表现出同等甚至更优的性能[2] 项目发展与现状 - 项目灵感源于实验室内部讨论,随着业界在确定性LLM推理方面取得突破,研究团队快速构建了原型并证明可行性[5] - 该项目已经开源,主要作者是来自上海交通大学ACM班的本科生Yi Pan,目前正在华盛顿大学实习[4] 当前挑战与局限 - 存在效率问题,LLM推理的计算复杂度与序列长度成二次方关系,长序列推理受内存带宽限制[7] - 采用分块处理文本策略以提高GPU利用率并降低计算开销[7] - 处理速度因严重依赖大规模模型推理而远低于传统压缩算法[7] - 当前实现主要针对自然语言,如何扩展到图像、视频或二进制数据等其他模态是未来探索方向[9]
重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!
机器之心· 2025-07-03 12:14
大模型推理机制研究 - 研究团队首次利用信息论方法揭示大模型内部推理动态,发现"思考词"出现时模型隐空间中关于正确答案的信息量会突然飙升数倍,形成真正的"信息高峰"与"决策拐点"[3] - 通过测量隐空间表征与最终答案的互信息(MI),证明推理过程中积累的互信息越高,模型回答正确的概率就越高,并给出错误概率的上下界数学表达式[5][6] - 在非推理模型上实验发现互信息波动更小、峰值现象更弱,表明推理能力强化训练会催生互信息峰值现象[7][9] 思考词汇的关键作用 - 研究发现互信息峰值时刻的隐空间表征解码后最常对应"思考词",包括反思型("Hmm")、逻辑型("Therefore")和行动型("Let")等三类[10][11][13] - 干预实验显示抑制思考词汇生成会显著降低模型在GSM8K、MATH等数学推理数据集的性能,而随机屏蔽普通词汇影响甚微,证实思考词汇对推理的关键作用[15][16] 性能提升方法 - 提出表征循环(RR)方法:在检测到思考词汇时将其表征重新输入模型进行额外计算,在AIME24上使DeepSeek-R1-Distill-LLaMA-8B准确率提升20%[18][20] - 开发基于思考词汇的测试时扩展(TTTS):强制模型以思考词汇开头继续生成,在token预算增加时持续提升性能,在6144预算时超越原始模型[21][22] 研究意义 - 首次清晰观测到大模型推理过程中的互信息峰值现象,为理解模型"黑箱"推理提供创新视角[24] - 发现思考词汇是信息高峰的语言化身,对模型推理性能具有关键影响[25] - 提出两种无需训练即可提升模型推理性能的方法,为后续研究提供新思路[26][27]
最新发现!每参数3.6比特,语言模型最多能记住这么多
机器之心· 2025-06-04 12:41
语言模型记忆与泛化研究 核心发现 - GPT系列模型的记忆容量约为每个参数3.6比特 达到此极限后模型停止记忆并转向泛化 [1][4] - 记忆与泛化的界限模糊 影响对模型能力和风险的评估 区分模型输出源于记忆训练数据还是理解潜在模式是关键挑战 [1] - 模型在数据量增加时持续记忆直至容量饱和 随后出现"顿悟"(grokking)现象 非预期记忆减少 泛化能力增强 [4] 研究方法 - 提出基于互信息(Mutual Information)的量化方法 通过信息论中的熵和条件熵定义记忆与泛化 [8][10] - 将记忆分为非预期记忆(特定数据集信息)和泛化(真实数据生成过程信息) 并给出数学定义 [5][7][12] - 采用Kolmogorov复杂度近似计算记忆量 通过压缩算法估计信息内容 [13][14] 实验设计 - 训练参数量50万至15亿不等的Transformer模型 建立模型容量、数据规模与成员推断关系的scaling law [6] - 使用合成序列测量容量 通过均匀采样标记构建数据集 精确计算香农信息 [20][21][23] - 测量显示模型容量与参数数量呈线性关系 每参数记忆量稳定在3.5-3.6比特 [27] 关键数据 - 800万参数模型在400万样本数据集上记忆量达2.95×10^6比特 800万样本数据集记忆量1.98×10^6比特 [28] - 训练精度从bfloat16提升至float32时 每参数记忆量从3.51比特增至3.83比特 但未达理论两倍增幅 [31][32] - 实验结果验证模型容量下限 梯度下降训练无法保证达到全局最优 [27]
当答案变得廉价时,好问题就是新的稀缺品
36氪· 2025-05-04 08:03
技术革新与行业重塑 - 摄影术的发明颠覆了19世纪巴黎美术学院定义的正统艺术标准,使绘画从现实主义转向对光影、质感和全新诠释的探索[2][3] - 大语言模型(LLM)如同当年的摄影术,通过降低答案获取成本重塑脑力劳动形态,其核心能力在于生成貌似可信的即时答案[15] - 印象派通过重新定义艺术问题(从"再现"转向"诠释")创造新价值,类比当前AI时代需要从答案消费转向问题设计[10][12][14] 信息经济学范式变迁 - 香农信息论揭示信息价值与其消除的不确定性成正比,而主流系统(如LLM)却逆向生成流畅但无实质的答案[22][23] - 在知识过剩环境中,注意力成为稀缺资源,系统设计缺陷导致数据收集超越边际效用[31][32] - 咨询业面临范式危机:答案商品化导致价值稀释,行业瓶颈转向问题界定能力[58][59][60] 认知框架重构 - 突破性创新(如CRISPR技术应用)往往源于对主流假设的质疑和问题框架的重构[37] - 人机协同优势体现在LLM连接跨领域知识的能力与人类提问能力的结合[39][41] - 香农理论的三阶影响展示好问题的链式反应:从通信工程扩展到生物学、经济学等跨学科领域[42] 能力体系转型 - 传统教育强调答案输出能力,而结构性不确定环境要求培养提问与探索能力[64] - 技能再培训若仅聚焦新答案掌握将失效,必须升级为问题设计能力培养[63] - 顶尖知识工作者需将不确定性转化为探索机会,构建动态认知地图而非静态知识库[64]