CoT） - 财报，业绩电话会，研报，新闻

CoT）

搜索文档

虎嗅· 2025-10-22 22:47

这篇文章，源于我一年半的AI开发实践，也源于我离职这近两个月里和许多团队密集交流后的一个强烈感受。我发现，在讨论Agent时，我们常常陷入两种误区：一些人将其神秘化，认为它无所不能；另一些人则将其过度简化，认为它"不过是把ChatGPT多调用几次"。因为对 agentic 循环过程的体感缺少和原理的理解，形成认知的错位，最终导致我们的沟通成本很高。因此，我写下这篇长文，希望能为我们这些从业者，建立一个关于Agent的体感和共识基础：AI Agent能力的质变，不仅在于底层大模型日益增长的智力，更关键的，在于我们围绕模型所设计的、那一套行之有效的"认知流程"。本文近万字，就是体感的建立和对这套"流程"的完整拆解。你可以根据这份指南，快速找到自己感兴趣的部分：第一部分：建立直观理解这里，我用了一个"学霸的五个成长阶段"的比喻，来描述Agent核心能力的演进过程。同时，我们会分析那个被行业广泛使用的"旅行规划"案例。它就像一道"标准考题"，在对比中，我们可以清晰地看到一个动态流程与一次性生成的本质区别。第二部分：面向开发者的核心第四节是本文的技术核心。它会详细拆解"流程"带来的三重价值：如何用 ...

自我反思（Self - Reflection）

自我反思（Self - Reflection）

Agent 一年半开发复盘：大家对 Agent 的理解有错位，有效的「认知流程」很关键

Founder Park· 2025-10-22 20:46

AI Agent核心观点 - AI Agent能力的质变关键不在于大模型智力增长，而在于围绕模型设计的认知流程[2] - 从Chatbot到Agent的进化本质是从静态生成转向动态执行流程[33] - 行业竞争核心已从模型参数转向智能流程设计优劣[62] Agent能力演进路径 - 学霸成长比喻展示Agent五阶段演进：原生天才→思考者→细心人→战略家→学者[15] - 思维链(CoT)强制模型分解复杂任务为线性推理子任务，降低幻觉概率[18] - 自我反思(Reflexion)框架引入"先行动-再复盘-后修正"迭代流程，HumanEval代码任务准确率达91%超越GPT-4的80%[20] - 规划能力将宏大目标分解为逻辑清晰子任务清单，提升执行确定性[22] - ReAct框架通过思考→行动→观察循环将AI从封闭大脑变为现实世界行动者[26] 流程设计三重价值 - 结构价值：规划流程在宏观层面建立逻辑脚手架，思维链在微观层面确保推理严谨[36][37] - 迭代价值：反思流程对记忆进行高效压缩，用极小上下文空间保留关键决策信息[42] - 交互价值：工具作为流程神经触手，通过ReAct框架确保AI获取真实世界信息[46][47] 科学理论基础 - 控制论视角：Agent实现从开环系统到闭环系统进化，通过反馈机制持续逼近目标[53][54] - 信息论视角：Agent工作本质是熵减过程，通过行动获取信息消除不确定性[59][60] 开发者角色转变 - 提示词工程师角色正成为历史，新兴角色是Agent流程架构师[64][65] - 新角色三大核心职责：设计AI思考流程、赋能行动工具、构建决策上下文[66][68][69] - 基础Think-Act-Observe循环是Agent心跳，架构师需在此基础上构建大脑与神经系统[70] 性能工程优化 - 架构剪枝：简单场景使用LLM内置工具调用范式降低延迟[70] - 并行化执行：对无依赖子任务实施并行工具调用，将总耗时缩短为最长任务耗时[71] - 模型路由：轻量模型处理高频任务，重量模型仅用于复杂推理节点[71] - 记忆架构：高效检索机制精准提取关键时刻所需知识[72] 前沿架构方向 - 认知调度中心：Anthropic Skills功能实现智能工作流编排，模型自主规划多工具协作[73] - 规约驱动分层：规划Agent生成技术规约作为执行Agent工作契约[74] - 即时代码生成：CodeAct框架让Agent动态创建工具，实现能力边界动态扩展[75]

GPT-5 核心成员详解 RL：Pre-training 只有和 RL 结合才能走向 AGI

海外独角兽· 2025-10-18 20:03

文章核心观点 - 强化学习与预训练的结合是当前AI发展的核心路径，两者相互依存，共同推动模型能力的提升[16][50] - 推理能力是AI发展的关键里程碑，其本质是模型寻找未知答案的思考过程，而不仅仅是简单的搜索[7][9] - 公司通过持续迭代其模型架构和训练方法，实现了从技术展示到实用产品的跨越，并确立了在行业中的领先地位[13][15][62] 强化学习与预训练的结合 - 预训练是基础，为强化学习提供必要的知识基础，没有预训练，强化学习难以奏效[16][22] - 强化学习必须建立在强大的预训练之上，而预训练同样需要强化学习的强化与闭环才能成功[3][50] - 公司自2019年就确立了“在大量数据上训练大型生成模型，然后进行强化学习”的战略路线，并延续至今[17] - 强化学习被比喻为训练狗的过程，通过奖励期望行为和惩罚不期望行为来优化模型策略[19][20] - 与相对标准化的预训练相比，强化学习更为复杂和精细，涉及更多动态组件，大规模扩展时挑战更大[33] 推理模型的技术演进 - 推理被定义为“找到一个未知答案的过程”，这比简单的“回答问题”需要更长的时间和更复杂的工作[7][9] - 思维链是模型将内部思考过程以人类语言和概念表达出来的能力，本质上是文字编码的思考过程[10][11] - 公司在推理模型的开发上遵循逐步扩展的训练实验路径，从展示能力的o1模型，到真正有用的o3模型，再到被视为o3迭代的GPT-5模型[13][15] - 模型思考时间的权衡由用户体验驱动，公司在产品层面提供不同模式让用户在输出质量和等待时间之间进行选择[12] - 编程能力是推理模型能力的一个自然副产品，研究人员常用编程问题测试新想法，使模型在该领域表现突出[43] 行业竞争与开源影响 - 公司在发布o1模型后，对许多研究实验室产生了意外冲击，而开源模型如DeepSeek的GRPO算法为其他实验室提供了快速跟进的操作说明书[30][32] - 数据标注行业必须不断自我更新，因为AI能力快速提升，几个月前需要人工标注的任务可能很快就能由AI自动完成[27] - 行业内的研究组织方式趋向于集中资源推进少数核心项目，而非进行大量分散的小赌注，以确保研究深度和效率[60] 智能体与未来发展方向 - 智能体系统的核心是让模型能够长时间自主思考，与更多系统和信息源交互，以完成复杂的长任务清单[34][35] - 目前大多数针对语言模型的强化学习仍是在线训练，但在与真实用户隔离的环境中进行，实时在线学习因安全考虑尚未大规模应用[36][38] - 对齐问题在某种程度上被视为一个强化学习问题，需要通过引导模型产生特定行为来实现，但这是一个持续演变的挑战[38][39] - 通向AGI的终极问题在于模型何时能在不依赖大量外部干预和人类修正的情况下实现自我改进[47] - 未来的发展路径更可能是在现有体系上持续叠加新方法，逐步淘汰旧元素，而非彻底推翻重来的转向[52]

在WAIC耳朵听出茧子的「智能体」，是时候系统学一下了

机器之心· 2025-08-04 15:05

文章核心观点 - 智能体成为AI大模型应用的重要方向，从单纯的聊天机器人转向具备主动思考、制定计划和使用工具的能力 [1] - 智能体系统通过整合工具使用、推理能力和自主规划，显著提升LLM解决复杂问题的能力 [6][38][112] - ReAct框架通过结合推理与行动，为智能体系统提供了通用的问题解决范式 [40][41][47] - 智能体发展分为多个层级，从标准LLM逐步演进到具备高度自主性的系统 [101][105][107][111] - 当前智能体系统仍处于早期阶段，可靠性是制约其发展的关键因素 [114][115] LLM及其能力 - 标准LLM采用文本到文本的结构，通用性是其核心优势 [5] - 现代智能体的高级能力建立在LLM基础功能之上 [6] - 推理风格的LLM通过生成思维链(CoT)显著提升推理能力 [24][25] - 专用推理模型(如DeepSeek)通过RLVR训练实现更复杂的推理行为 [29][31] 工具使用 - LLM可集成计算器、日历、搜索引擎等外部工具作为问题解决环节 [7] - LLM充当"大脑/指挥官"角色，协调不同专业工具协同工作 [8] - 工具使用方式包括：针对性微调、基于提示的方法和MCP协议 [9][11][16] - 基于提示的工具使用方法可支持LLM与数千个API集成 [15] 推理模型 - CoT提示通过引导LLM展示逐步推理过程提升表现 [24][25] - 推理模型采用不定量"思考"时间，思维链可达数千token [30] - RLVR训练使模型通过自我进化发展推理能力 [31][33] - 推理轨迹长度可控制模型思考深度，如OpenAI的o系列提供低中高三级 [34][35] ReAct框架 - 首个通用框架，通过LLM智能体自主分解并解决复杂问题 [40][41] - 关键创新：允许语言作为行动形式，智能体可输出"思考" [46][47] - 思维模式包括：任务分解、计划制定、进度跟踪等 [53][55] - 在知识密集型推理和决策制定任务中表现优异 [63][64][77] - 与CoT结合可进一步提升性能，支持两种模式切换 [78][80] 智能体系统演进 - 从标准LLM(Level 0)到具备完全自主性的系统(Level 3) [101][111] - Level 1: 集成工具使用，克服知识截止和幻觉问题 [104][105] - Level 2: 引入问题分解框架，如ReAct [107][109] - Level 3: 增加自主行动能力，如自动提交PR的Codex [111] - 理想系统整合推理LLM、标准LLM、工具和行动能力 [112] 行业现状与未来 - 当前智能体系统仍脆弱，单步错误可能导致整体失败 [114] - 可靠性是制约因素，需提升LLM稳健性 [114] - 研究重点：多智能体系统、领域微调、评估方法 [114] - 预计短期内能力和通用性将显著提升 [115]

Artificial Intelligence

Artificial Intelligence

揭秘：OpenAI是如何发展出推理模型的？

华尔街见闻· 2025-08-04 15:02

文章核心观点 - OpenAI的ChatGPT成功被视为一次意外收获公司真正的长期战略是开发具备推理能力的通用AI智能体（AI Agents）其技术突破源于数学推理研究[1][2][3] - 公司通过结合大语言模型、强化学习和测试时计算三大技术实现推理能力飞跃关键突破内部代号为"Q*"或"Strawberry"[4][5] - 基于新方法开发的o1推理模型在2024年秋季问世该模型使OpenAI在国际数学奥林匹克竞赛（IMO）中获得金牌[3][6] - 公司面临Google、Anthropic、xAI和Meta等竞争对手的激烈追赶行业竞赛焦点在于谁能率先实现通用AI智能体愿景[9] OpenAI技术发展路径 - 数学领域被选为推理能力研究的起点因为数学是纯粹逻辑和推理的试金石 2022年MathGen团队专注训练AI模型解答高中数学竞赛题[2] - 从语言处理到逻辑推理的跨越通过三大技术结合实现：大语言模型提供知识基础强化学习通过奖惩机制优化决策测试时计算允许模型反复验证思考步骤[5] - 新技术催生"思考链"（Chain-of-Thought）方法模型展示完整解题思路而非直接输出答案研究员观察到模型具备回溯错误和情绪化反应的特征[6] 推理能力的技术本质 - 公司从计算机科学角度定义推理为"有效消耗算力得到答案"的过程强调功能实现而非形式模仿[7] - 研究文化采用自下而上模式团队只需证明想法突破性即可获得GPU和人才资源支持这种机制保障了对AGI使命的长期投入[7] - AI推理与人类思考的关系被类比为飞机与鸟类飞行不同机制可实现相同甚至更强大的结果[7] 未来发展方向 - 当前AI智能体擅长定义明确的可验证任务（如编程）但在处理主观性任务（如停车位选择或旅行规划）时仍存在瓶颈[8] - 核心挑战在于缺乏训练主观任务的数据公司已开发新的通用强化学习技术训练模型处理无标准答案的问题[8] - IMO金牌模型采用多智能体协作机制同时探索不同解题路径后选择最优解这代表未来AI演进方向[8] - 终极目标是开发能处理互联网任何事务并理解用户偏好的超级智能体所有研究均指向该方向[8] 行业竞争格局 - OpenAI曾为AI行业绝对引领者但目前面临Google、Anthropic、xAI和Meta等对手的强势竞争[9] - 行业竞争焦点转向实现"智能体未来"的时间赛跑关键在于能否在被超越前率先达到技术终点[9]

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

量子位· 2025-06-16 12:50

大模型推理优化技术R-KV 核心观点 - 推出R-KV技术解决大模型推理冗余问题通过实时token排序和动态压缩实现显存降低90% 吞吐提升6.6倍准确率保持100% [1][2][3] - 技术突破在于边生成边压缩结合重要性评分和冗余过滤保留关键信息同时去除重复内容 [9][15] - 在数学基准测试中表现优异如R1-Llama-8B模型在MATH-500准确率达34% 超过完整KV缓存效果 [17][19] 技术原理 - 采用三步走策略：冗余识别+重要性评估+动态淘汰解决链式思考导致的推理长度膨胀问题 [5] - 通过多头注意力评估token贡献度计算key向量余弦相似度识别冗余按优先级调度KV配额 [9] - 可视化对比显示 R-KV保留跨段落关键信息如题目数值和最终答案 SnapKV则误删关键步骤 [13][14][15] 性能表现 - 显存节省显著：固定1024预算时节省87.5% 比例10%预算时节省90% [20] - 吞吐量提升：8K序列下最大批处理479时达3809 tok/s 16K序列下最大批处理402时达3188 tok/s [20] - 计算开销可控注意力成本降低抵消评分消耗长序列场景优势更明显 [20][21] 应用场景 - 边端设备长链推理使消费级GPU和手机NPU可运行大模型 [22] - 支持多轮Agent复杂流程如反思-重写-自评突破显存限制 [22] - 即插即用特性可加速强化学习采样过程无需额外训练 [22] 基准测试数据 - DeepSeek-R1-Llama-8B处理AIME数学题时原生生成3.2万token 显存占用达4.1GB [6] - R1-Qwen-14B在AIME24测试准确率25% 较基线提升显著 [19] - 16K序列下采用10%比例预算实现90%显存节省同时维持271最大批处理量 [20]

KV缓存压缩

链式思考（Chain-of-Thought

链式思考（Chain-of-Thought

谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

机器之心· 2025-05-05 11:40

核心观点 - 研究系统分析了LLM在决策场景中的三种常见失败模式：贪婪性、频率偏差和知-行差距 [2][4] - 提出通过强化学习微调(RLFT)自动生成的思维链(CoT)推理过程，实验证明该方法能有效提升LLM决策能力 [2][8] - RLFT通过环境交互奖励优化CoT推理，使模型倾向于选择高奖励动作，显著改善探索行为和知-行差距 [8][22] 失败模式分析 - **贪婪性**：LLM过早锁定局部最优动作，在10臂老虎机实验中27B模型仅覆盖45%动作空间 [15][17] - **频率偏差**：2B模型机械复制高频动作（熵值降低50%），27B模型虽减弱此现象但仍保持贪婪 [5][18] - **知-行差距**：87%推理正确但58%情况仍选择贪婪动作，与最优动作选择率(21%)形成显著落差 [20] 模型规模差异 - 小模型(2B)受频率偏差影响严重，重复动作选择率随上下文出现次数线性增长 [5][18] - 大模型(27B)能减弱频率偏差但维持贪婪策略，在20臂老虎机中动作覆盖率停滞在55% [6][15] RLFT方法细节 - 采用裁剪目标函数和KL约束进行微调，数学表达式见公式(2) [11] - 输入包含指令文本和最近C步的状态-动作-奖励轨迹 [10] - 测试环境包括多臂老虎机(MAB)和井字棋游戏 [13] 实验结果 - RLFT使2B/9B模型遗憾值降低30%，优于随机基线 [22] - 微调后模型探索率提升，10步后动作覆盖率突破60% [17][22] - 知-行差距缩小，正确推理对应最优动作执行率从21%提升至40% [20][22]