信息论 - 财报，业绩电话会，研报，新闻

信息论

搜索文档

虎嗅· 2025-10-22 22:47

这篇文章，源于我一年半的AI开发实践，也源于我离职这近两个月里和许多团队密集交流后的一个强烈感受。我发现，在讨论Agent时，我们常常陷入两种误区：一些人将其神秘化，认为它无所不能；另一些人则将其过度简化，认为它"不过是把ChatGPT多调用几次"。因为对 agentic 循环过程的体感缺少和原理的理解，形成认知的错位，最终导致我们的沟通成本很高。因此，我写下这篇长文，希望能为我们这些从业者，建立一个关于Agent的体感和共识基础：AI Agent能力的质变，不仅在于底层大模型日益增长的智力，更关键的，在于我们围绕模型所设计的、那一套行之有效的"认知流程"。本文近万字，就是体感的建立和对这套"流程"的完整拆解。你可以根据这份指南，快速找到自己感兴趣的部分：第一部分：建立直观理解这里，我用了一个"学霸的五个成长阶段"的比喻，来描述Agent核心能力的演进过程。同时，我们会分析那个被行业广泛使用的"旅行规划"案例。它就像一道"标准考题"，在对比中，我们可以清晰地看到一个动态流程与一次性生成的本质区别。第二部分：面向开发者的核心第四节是本文的技术核心。它会详细拆解"流程"带来的三重价值：如何用 ...

自我反思（Self - Reflection）

自我反思（Self - Reflection）

Agent 一年半开发复盘：大家对 Agent 的理解有错位，有效的「认知流程」很关键

Founder Park· 2025-10-22 20:46

AI Agent核心观点 - AI Agent能力的质变关键不在于大模型智力增长，而在于围绕模型设计的认知流程[2] - 从Chatbot到Agent的进化本质是从静态生成转向动态执行流程[33] - 行业竞争核心已从模型参数转向智能流程设计优劣[62] Agent能力演进路径 - 学霸成长比喻展示Agent五阶段演进：原生天才→思考者→细心人→战略家→学者[15] - 思维链(CoT)强制模型分解复杂任务为线性推理子任务，降低幻觉概率[18] - 自我反思(Reflexion)框架引入"先行动-再复盘-后修正"迭代流程，HumanEval代码任务准确率达91%超越GPT-4的80%[20] - 规划能力将宏大目标分解为逻辑清晰子任务清单，提升执行确定性[22] - ReAct框架通过思考→行动→观察循环将AI从封闭大脑变为现实世界行动者[26] 流程设计三重价值 - 结构价值：规划流程在宏观层面建立逻辑脚手架，思维链在微观层面确保推理严谨[36][37] - 迭代价值：反思流程对记忆进行高效压缩，用极小上下文空间保留关键决策信息[42] - 交互价值：工具作为流程神经触手，通过ReAct框架确保AI获取真实世界信息[46][47] 科学理论基础 - 控制论视角：Agent实现从开环系统到闭环系统进化，通过反馈机制持续逼近目标[53][54] - 信息论视角：Agent工作本质是熵减过程，通过行动获取信息消除不确定性[59][60] 开发者角色转变 - 提示词工程师角色正成为历史，新兴角色是Agent流程架构师[64][65] - 新角色三大核心职责：设计AI思考流程、赋能行动工具、构建决策上下文[66][68][69] - 基础Think-Act-Observe循环是Agent心跳，架构师需在此基础上构建大脑与神经系统[70] 性能工程优化 - 架构剪枝：简单场景使用LLM内置工具调用范式降低延迟[70] - 并行化执行：对无依赖子任务实施并行工具调用，将总耗时缩短为最长任务耗时[71] - 模型路由：轻量模型处理高频任务，重量模型仅用于复杂推理节点[71] - 记忆架构：高效检索机制精准提取关键时刻所需知识[72] 前沿架构方向 - 认知调度中心：Anthropic Skills功能实现智能工作流编排，模型自主规划多工具协作[73] - 规约驱动分层：规划Agent生成技术规约作为执行Agent工作契约[74] - 即时代码生成：CodeAct框架让Agent动态创建工具，实现能力边界动态扩展[75]

超越ZIP的无损压缩来了，华盛顿大学让大模型成为无损文本压缩器

36氪· 2025-10-11 18:47

核心技术原理 - 利用大型语言模型作为强大的概率预测引擎，将自然语言的高维分布转换为结构化的概率信息以实现高效压缩[5] - 核心方法为基于排序的编码，即存储目标词元在LLM预测的概率排序列表中的排名，而非词元本身[6] - 解压时使用相同的LLM和上下文重现概率分布，通过存储的排名准确选择对应词元，实现无损文本恢复[6] 性能表现 - 在维基百科、小说文本和科学摘要等多种数据集上，其压缩率均优于传统压缩工具如ZIP和LZMA[2] - 与其他以LLM为基础的闭源压缩系统相比，表现出同等甚至更优的性能[2] 项目发展与现状 - 项目灵感源于实验室内部讨论，随着业界在确定性LLM推理方面取得突破，研究团队快速构建了原型并证明可行性[5] - 该项目已经开源，主要作者是来自上海交通大学ACM班的本科生Yi Pan，目前正在华盛顿大学实习[4] 当前挑战与局限 - 存在效率问题，LLM推理的计算复杂度与序列长度成二次方关系，长序列推理受内存带宽限制[7] - 采用分块处理文本策略以提高GPU利用率并降低计算开销[7] - 处理速度因严重依赖大规模模型推理而远低于传统压缩算法[7] - 当前实现主要针对自然语言，如何扩展到图像、视频或二进制数据等其他模态是未来探索方向[9]

重磅发现！大模型的「aha moment」不是装腔作势，内部信息量暴增数倍！

机器之心· 2025-07-03 12:14

大模型推理机制研究 - 研究团队首次利用信息论方法揭示大模型内部推理动态，发现"思考词"出现时模型隐空间中关于正确答案的信息量会突然飙升数倍，形成真正的"信息高峰"与"决策拐点"[3] - 通过测量隐空间表征与最终答案的互信息(MI)，证明推理过程中积累的互信息越高，模型回答正确的概率就越高，并给出错误概率的上下界数学表达式[5][6] - 在非推理模型上实验发现互信息波动更小、峰值现象更弱，表明推理能力强化训练会催生互信息峰值现象[7][9] 思考词汇的关键作用 - 研究发现互信息峰值时刻的隐空间表征解码后最常对应"思考词"，包括反思型("Hmm")、逻辑型("Therefore")和行动型("Let")等三类[10][11][13] - 干预实验显示抑制思考词汇生成会显著降低模型在GSM8K、MATH等数学推理数据集的性能，而随机屏蔽普通词汇影响甚微，证实思考词汇对推理的关键作用[15][16] 性能提升方法 - 提出表征循环(RR)方法：在检测到思考词汇时将其表征重新输入模型进行额外计算，在AIME24上使DeepSeek-R1-Distill-LLaMA-8B准确率提升20%[18][20] - 开发基于思考词汇的测试时扩展(TTTS)：强制模型以思考词汇开头继续生成，在token预算增加时持续提升性能，在6144预算时超越原始模型[21][22] 研究意义 - 首次清晰观测到大模型推理过程中的互信息峰值现象，为理解模型"黑箱"推理提供创新视角[24] - 发现思考词汇是信息高峰的语言化身，对模型推理性能具有关键影响[25] - 提出两种无需训练即可提升模型推理性能的方法，为后续研究提供新思路[26][27]

最新发现！每参数3.6比特，语言模型最多能记住这么多

机器之心· 2025-06-04 12:41

语言模型记忆与泛化研究核心发现 - GPT系列模型的记忆容量约为每个参数3.6比特达到此极限后模型停止记忆并转向泛化 [1][4] - 记忆与泛化的界限模糊影响对模型能力和风险的评估区分模型输出源于记忆训练数据还是理解潜在模式是关键挑战 [1] - 模型在数据量增加时持续记忆直至容量饱和随后出现"顿悟"(grokking)现象非预期记忆减少泛化能力增强 [4] 研究方法 - 提出基于互信息(Mutual Information)的量化方法通过信息论中的熵和条件熵定义记忆与泛化 [8][10] - 将记忆分为非预期记忆(特定数据集信息)和泛化(真实数据生成过程信息) 并给出数学定义 [5][7][12] - 采用Kolmogorov复杂度近似计算记忆量通过压缩算法估计信息内容 [13][14] 实验设计 - 训练参数量50万至15亿不等的Transformer模型建立模型容量、数据规模与成员推断关系的scaling law [6] - 使用合成序列测量容量通过均匀采样标记构建数据集精确计算香农信息 [20][21][23] - 测量显示模型容量与参数数量呈线性关系每参数记忆量稳定在3.5-3.6比特 [27] 关键数据 - 800万参数模型在400万样本数据集上记忆量达2.95×10^6比特 800万样本数据集记忆量1.98×10^6比特 [28] - 训练精度从bfloat16提升至float32时每参数记忆量从3.51比特增至3.83比特但未达理论两倍增幅 [31][32] - 实验结果验证模型容量下限梯度下降训练无法保证达到全局最优 [27]

Artificial Intelligence

Artificial Intelligence

GPT系列模型

当答案变得廉价时，好问题就是新的稀缺品

36氪· 2025-05-04 08:03

技术革新与行业重塑 - 摄影术的发明颠覆了19世纪巴黎美术学院定义的正统艺术标准，使绘画从现实主义转向对光影、质感和全新诠释的探索[2][3] - 大语言模型(LLM)如同当年的摄影术，通过降低答案获取成本重塑脑力劳动形态，其核心能力在于生成貌似可信的即时答案[15] - 印象派通过重新定义艺术问题(从"再现"转向"诠释")创造新价值，类比当前AI时代需要从答案消费转向问题设计[10][12][14] 信息经济学范式变迁 - 香农信息论揭示信息价值与其消除的不确定性成正比，而主流系统(如LLM)却逆向生成流畅但无实质的答案[22][23] - 在知识过剩环境中，注意力成为稀缺资源，系统设计缺陷导致数据收集超越边际效用[31][32] - 咨询业面临范式危机：答案商品化导致价值稀释，行业瓶颈转向问题界定能力[58][59][60] 认知框架重构 - 突破性创新(如CRISPR技术应用)往往源于对主流假设的质疑和问题框架的重构[37] - 人机协同优势体现在LLM连接跨领域知识的能力与人类提问能力的结合[39][41] - 香农理论的三阶影响展示好问题的链式反应：从通信工程扩展到生物学、经济学等跨学科领域[42] 能力体系转型 - 传统教育强调答案输出能力，而结构性不确定环境要求培养提问与探索能力[64] - 技能再培训若仅聚焦新答案掌握将失效，必须升级为问题设计能力培养[63] - 顶尖知识工作者需将不确定性转化为探索机会，构建动态认知地图而非静态知识库[64]

提问能力

信息论

大语言模型

Artificial Intelligence

提问能力

信息论

大语言模型

Artificial Intelligence