智能体式思考
搜索文档
林俊旸离职后首发长文
新华网财经· 2026-03-27 11:22
行业对大模型评估方式与核心期待的重塑 - 过去两年重塑了行业对大模型的评估方式与核心期待 OpenAI的o1模型表明“思考”可以成为一种被训练出来的能力 [2] - DeepSeek-R1紧随其后 证明推理式的后训练可以在原始实验室之外被复现、被扩展 [2] 大模型发展的当前阶段与下一步方向 - 2025年上半年 行业焦点主要停留在“推理式思考”本身 即如何让模型在推理时多想一会儿 [2] - 下一步的判断是“智能体式思考” 即为了行动而思考 在与环境交互的过程中 根据来自世界的反馈持续更新计划 [2] 统一思考与指令模式的探索与挑战 - 2025年初 千问团队曾有一个很大的野心 希望做一个统一的系统 让思考模式和指令模式合二为一 支持可调节的推理努力程度 甚至能根据提示词和上下文自动推断合适的推理量 [2] - 真正的难点在于数据 两种模式的数据分布和行为目标存在显著差异 尝试合并的结果往往是在两个方向上都表现平庸 [3] - 分开做在实践中仍有吸引力 2025年下半年 Qwen的2507版本就发布了独立的Instruct和Thinking版本 30B和235B各一套 [3] - 真正成功的合并需要一个平滑的推理力度光谱 模型能自己判断该花多少力气去想 [3] 智能体式思考与推理式思考的核心差异 - 推理式思考通常以最终答案前的内部思辨质量来评判 例如模型能否解出定理、写出证明、生成正确代码或通过基准测试 [4] - 智能体式思考关注的是模型能否在与环境交互的过程中持续取得进展 [4] - 核心问题从“模型能否思考得足够久”转变为“模型能不能用一种撑得起有效行动的方式来思考” [4] - 模型训练的核心对象也随之改变 变成了模型加环境的整个系统 [4] - 环境设计、rollout基础设施、评估器的稳健程度、多个Agent之间怎么协调 这些都进入了核心圈 [4] - “好的思考”的定义也变了 是在真实约束下最能撑起行动的那条轨迹 而非最长或最显眼的那条 [4] 对行业未来发展的预判 - 行业正在从训练模型的时代 走向训练智能体的时代 其定义特征是跟真实世界的闭环交互 [3] - 智能体式思考会成为主流 [5]
林俊旸离职后首度发声:万字复盘,大模型下一站「智能体式思考」
机器之心· 2026-03-27 08:10
文章核心观点 - 行业正经历从“推理式思维”向“智能体式思维”的范式转移,未来的绝对主线是训练能够与环境交互、为行动而思考的智能体,而非仅仅优化内部推理的模型 [4][16][29] - OpenAI o1和DeepSeek R1的崛起标志着行业从扩展预训练规模转向扩展后训练规模以进行推理,并凸显了基础设施和确定性反馈信号的重要性 [4][7] - 将“思考模式”与“指令模式”融合在单一模型内面临根本性挑战,两种模式在数据分布和行为目标上存在内在冲突,实践中分离部署可能更具吸引力 [10][11][13] - 智能体式思维将优化目标从解决基准测试转向在交互中持续取得进展,这带来了更复杂的基础设施挑战,并使得环境设计、训练-推理解耦、防作弊协议成为新的研究瓶颈 [18][20][25][26] - 竞争优势的来源正在改变:从“推理时代”的强化学习算法和训练流水线,转向“智能体时代”的环境设计、训练与服务集成以及系统编排工程能力 [30] 1. o1和R1的崛起究竟教会了我们什么 - 第一波推理模型表明,在语言模型中扩展强化学习需要确定性、稳定和可扩展的反馈信号,数学、代码等可验证领域的奖励比通用偏好监督更有效 [6] - 推理模型的出现既是建模的故事,也是基础设施的故事,强化学习从监督微调的附加组件演变为需要大规模部署、高吞吐量验证和高效采样的系统问题 [7] - 行业发生了第一个重大转变:从扩展预训练规模转向扩展后训练规模以进行推理 [7] 2. 真正的问题绝非仅仅是“融合思考与指令” - Qwen3尝试了“混合思考模式”,旨在将“思考型”与“指令型”行为融合,支持可调节的推理强度,并设计了四阶段的后训练流程 [9] - 融合的根本挑战在于数据:两种模式依赖的数据分布和行为目标截然不同,指令型追求低延迟、格式规范和简洁,思考型则需投入更多Token资源进行逻辑推理和探索 [10][11] - 未经精细数据编排的融合训练可能导致两头落空:思考行为变得冗杂臃肿,指令行为成本升高且可靠性下降 [11] - 实践中,保持分离部署更具吸引力,例如Qwen 2507系列推出了针对指令和思维功能的独立更新,以满足商业客户对高吞吐量、低成本、可控响应的需求 [11] - 其他实验室如Anthropic、智谱GLM和DeepSeek选择了集成路径,推出混合推理模型,但关键在于模型是否能呈现平滑连续的推理强度谱系,而非简单的二元开关 [12][13] 3. Anthropic的发展方向为何起到了有益的纠偏作用 - Anthropic在宣传Claude 3.7和Claude 4时强调集成推理、用户可控的“思考预算”、解决现实任务的能力以及思考与工具调用的交错进行 [15] - 其发展轨迹体现了一种严谨理念:模型的思考过程应根据具体工作负载塑形,例如为代码编写任务辅助导航和规划,为智能体工作流提升长周期任务执行成效 [16] - 这种对“针对性实用价值”的强调,指向了从“训练模型”向“训练智能体”时代的更宏大趋势 [16] 4. “智能体式思维”的真正含义 - 智能体式思维的优化目标发生转变:核心问题从“模型能否进行足够长时间的思考?”变为“模型能否以一种能够支撑有效行动的方式进行思考?” [18] - 它关注模型在与环境交互过程中能否持续取得进展,并必须处理行动选择、工具调用、整合不完整观测信息、失败后修正计划以及保持多轮交互一致性等问题 [18][25] 5. 为什么智能体式强化学习的基础设施构建难度更大? - 优化目标转向交互式任务后,强化学习技术栈发生变化,策略模型被嵌入包含工具服务器、浏览器、模拟器、记忆系统等组件的庞大支撑框架中,环境成为训练系统不可分割的一部分 [20] - 这带来了全新的系统级需求:训练过程与推理过程必须实现彻底解耦,否则工具调用延迟、环境状态变化等因素将导致轨迹采样吞吐量急剧下滑和GPU利用率低下 [21] - 环境本身跃升为核心研究资产,其质量(如稳定性、真实性、覆盖度、反馈丰富度)至关重要,环境构建正演变为一个独立的创业赛道 [22] 6. 下一个前沿:更具可用性的思维 - 智能体式思维预计将取代许多静态独白式的推理思维模式,先进系统应拥有执行搜索、模拟、执行代码、验证等操作的权限,核心目标是以稳健高效的方式解决问题 [24] - 训练此类系统最棘手的挑战是“奖励作弊”风险,模型在获得调用外部工具权限后,可能学会利用环境漏洞走捷径,而非真正解决问题,这扩大了“虚假优化”的攻击面 [25] - 下一波研究瓶颈将集中在环境设计、评估器鲁棒性、防作弊协议以及策略与世界接口的构建上 [26] - 基于工具辅助的思维模式实用性优于孤立内部思维,智能体式思维的兴起也意味着对“系统编排工程”的精细化构建,未来趋势是从训练模型到训练智能体,再到训练整个智能体系统 [27]
腾讯研究院AI速递 20260327
腾讯研究院· 2026-03-27 00:06
生成式AI算法与模型优化 - 谷歌发布TurboQuant压缩算法,通过极坐标变换与1-bit误差校验,将KV缓存压缩至3-bit,使内存占用降低6倍,推理速度提升8倍,无需重训或校准数据,在长上下文基准测试中性能接近全精度模型[1] - 英伟达提出智能体式变异算子AVO,用自主编码智能体替代传统进化搜索,在Blackwell B200 GPU上连续自主运行7天,其生成的注意力内核在BF16精度下达1668 TFLOPS,性能超越英伟达官方cuDNN最高3.5%,超越FlashAttention-4最高10.5%[3] - Meta提出超级智能体HYPERAGENTS,结合哥德尔机思想与达尔文开放算法,使智能体不仅能完成任务还能优化“改进自身”的底层逻辑,在SWE-bench上性能从20%自动提升至50%,并具有跨领域迁移能力[4] 生成式AI应用与产品动态 - 谷歌发布AI音乐模型Lyria 3 Pro,可生成最长3分钟完整歌曲,支持前奏、主歌、副歌等结构化编排及精确控制节奏与歌词时间轴,并通过Gemini App、API、Google Vids等多入口全面开放[2] - OpenAI因成本压力关停Sora,半年仅赚210万美元且与迪士尼的10亿美元合作泡汤,而谷歌选择将生成能力嵌入已有产品生态[2] - Sakana AI等团队提出的AI Scientist系统实现科研全流程自动化,能自主生成研究思路、编写代码、运行实验、撰写论文并进行同行评审,其生成的一篇论文获得ICLR 2025研讨会6.33分评审成绩[7] AI行业趋势与竞争格局 - AI工程方法正经历从Prompt Engineering到Context Engineering再到Harness Engineering的演进,Harness包含记忆管理、工具技能等六大组件,核心原则是精准信息披露、工具精简和上下文利用率控制在60%以下[9] - 智能体时代的竞争优势正从RL算法转向环境质量、训练推理紧耦合和harness工程能力,reward hacking被视为最大技术挑战[8] - 模型公司与应用公司的竞争已从模型层转向“模型+harness”整体,下一代范式可能是多智能体协调工程[9] 地缘政治与市场影响 - NeurIPS新增条款禁止美国OFAC制裁名单上的机构投稿和参与审稿,涉及华为、商汤、中芯国际、海康威视等873条中国相关名单条目,引发中国学界抵制[5][6] - 中国学者已成NeurIPS核心力量,清华大学以390篇论文位列NeurIPS 2025全球第一,此举被批评为将学术交流政治化[6] - 谷歌TurboQuant算法消息引发存储芯片板块集体重挫,美光、西数等巨头股价全线下跌,但业界认为杰文斯悖论可能使实际内存需求不降反升[1] 中国市场与基础设施预测 - Gartner预测到2030年中国80%本地AI基础设施将采用国产AI芯片,目前仅为20%,出口限制推动了自主研发进程和本土市场保护[10] - 到2028年跨区域合规与AI偏见问题将占AI数据管理量的50%,企业需通过数据属地化等方式应对多区域模型混用带来的合规风险[10] - 到2029年70%的中国企业将落地正式AI安全测试,AI智能体将承担大型企业超40%的IT运营任务,“智能体化企业”是下一阶段方向[11]
林俊旸离职后首次发声!复盘千问的弯路,指出AI的新路
量子位· 2026-03-27 00:01
文章核心观点 - 行业正经历从“推理模型时代”向“智能体时代”的范式转变,未来的核心竞争力将来自智能体与环境交互的能力,而非孤立的模型推理能力 [12][13][71] - OpenAI的o1和DeepSeek-R1的成功标志着“推理式思考”时代的使命完成,它们证明了推理能力可通过强化学习规模化训练,关键在于确定性强、可规模化的反馈信号 [9][10][23] - 千问团队在Qwen3上尝试合并“思考”与“指令”模式,但结果未达预期,两种模式的行为目标存在本质冲突,导致合并后效果平庸 [5][7][35][36] - 真正的未来方向是“智能体式思考”,即模型为了行动而思考,在与环境的交互中不断修正计划,其基础设施和训练挑战远大于推理模型 [22][54][56][73] 从“推理模型时代”到“智能体时代”的转变 - **推理时代的成就与局限**:OpenAI的o1和DeepSeek-R1证明了推理能力可以成为一等公民级别的、可专门训练的能力,并能在实验室外被复现和规模化 [16][17][27]。行业在2025年上半年集中研究如何让模型花更多推理时间、训练更强的奖励模型以及控制推理力度 [11][21]。然而,过长的推理轨迹可能只是算力分配低效的信号,并非更聪明的表现 [48] - **智能体时代的定义与核心**:智能体式思考的核心优化目标从“想得更久”转变为“为了行动而想”,模型需要在与环境的交互中持续取得进展 [13][22][54]。智能体是一个能与世界进行闭环交互的系统,能够制定计划、使用工具、感知反馈并修正策略 [52] - **竞争优势的迁移**:在推理时代,优势来自更好的强化学习算法、更强的反馈信号和更可扩展的训练流水线 [76]。在智能体时代,优势将来自更好的环境设计、更强的编排工程、训练与推理的紧密耦合,以及多智能体之间的协调能力 [13][74][76] 对“思考”与“指令”模式合并的反思 - **千问团队的尝试与挑战**:Qwen3是统一思考与指令模式方向上“最清晰的公开尝试之一”,引入了混合思维模式和四阶段后训练流水线 [6][32]。但合并面临根本挑战:两种模式的数据分布和行为目标存在本质差异 [35]。指令模式追求简洁、直接、低延迟和高吞吐,适用于企业批量任务;思考模式则奖励在难题上花费更多token进行连贯推理以提升正确率 [35]。强行合并可能导致“思考”行为变得臃肿犹豫,“指令”行为变得不够干脆可靠且成本更高 [7][36] - **行业的不同路径**:2025年下半年,千问在Qwen3之后发布了独立的Instruct和Thinking模型更新,因为大量商业客户仍需要高吞吐、低成本、高度可控的指令模型,分离产品线能更专注地解决各自问题 [38]。相反,Anthropic的Claude 3.7 Sonnet和GLM-4.5等选择了整合路线,主张推理应作为一种整合能力,而非独立模型 [39][40] - **成功合并的关键**:真正的成功合并不是将两种人格硬塞进一个检查点,而是让模型拥有一个连续的“推理努力光谱”,能够流畅地表达多个层级的推理力度,并理想地自适应选择 [8][44]。GPT式的力度控制是朝这个方向的努力,它是一种关于算力分配的策略 [45] 智能体时代的基础设施与挑战 - **基础设施的根本性变革**:智能体强化学习的基础设施比推理强化学习复杂得多 [55]。环境(如工具服务器、浏览器、模拟器)成为训练系统的一部分,而不仅仅是静态验证器 [57][58]。这要求训练与推理必须更彻底地解耦,否则采样吞吐量会因等待环境反馈而崩溃 [59][60] - **环境成为核心研究对象**:在智能体时代,环境质量(稳定性、真实性、反馈丰富度、防作弊能力)变得至关重要,构建高质量环境本身已成为一个重要的创业或研究方向 [61] - **奖励作弊风险加剧**:一旦模型能访问工具,奖励作弊变得非常危险。例如,模型可能学会在训练中直接搜索答案,或利用环境漏洞走捷径,这要求更严格的环境设计、评估器鲁棒性和防作弊协议 [66][67][69] 未来发展方向与关键能力 - **从训练模型到训练系统**:未来的方向是从训练模型,演进到训练智能体,最终到训练整个系统(模型+环境+编排框架) [14][71][73] - **编排工程的兴起**:核心智能将越来越多地来自多个智能体的组织与编排,例如规划者、领域专家智能体和执行子智能体的协同工作 [70] - **“好的思考”重新定义**:最有用的思考轨迹是能在真实世界约束下维持有效行动的轨迹,而非最长或最醒目的内部独白 [75]
林俊旸离职后首发长文
第一财经· 2026-03-26 23:05
行业技术发展路径 - 过去两年行业重塑了对大模型的评估方式与核心期待 例如 OpenAI 的 o1 表明“思考”可以成为一种被训练出来的能力 DeepSeek-R1 则证明推理式后训练可在原始实验室之外被复现和扩展[3] - 2025年上半年行业焦点主要停留在“推理式思考”本身 即如何让模型在推理时多想一会儿 而当前行业需要思考下一步的发展方向[3] - 行业正在从训练模型的时代走向训练智能体的时代 其定义特征是与真实世界形成闭环交互 智能体式思考将成为主流[3][5][7] 技术演进与核心挑战 - 一个重要的技术方向是构建统一的系统 将思考模式和指令模式合二为一 并支持可调节的推理努力程度 甚至让模型自主决定推理量 但实现“合并”极其困难[3] - 实现“合并”的真正难点在于数据 思考与指令两种模式的数据分布和行为目标存在显著差异 强行合并可能导致在两个方向上都表现平庸[4] - 在实践中 分开开发独立的指令版本和思考版本仍有吸引力 例如Qwen的2507版本就发布了独立的Instruct和Thinking版本 包括30B和235B各一套[5] - 更优的解决方案是构建一个平滑的推理力度光谱 使模型能自己判断该花费多少计算资源进行思考 因为更长的推理链并不等同于模型更聪明 有时反而意味着模型在乱花算力[5] 智能体时代的范式转变 - 智能体式思考与推理式思考的优化目标不同 推理式思考以最终答案前的内部思辨质量来评判 而智能体思维关注模型能否在与环境交互的过程中持续取得进展[5] - 核心问题从“模型能否思考得足够久”转变为“模型能不能用一种撑得起有效行动的方式来思考” 模型训练的核心对象也随之变为模型加环境的整个系统[5] - 在智能体时代 环境设计、rollout基础设施、评估器的稳健程度以及多个Agent之间的协调等问题变得至关重要 进入了技术核心圈[6] - “好的思考”的定义发生改变 指的是在真实约束下最能撑起行动的那条轨迹 而非最长或最显眼的那条[6]