Workflow
o1
icon
搜索文档
傅盛:这轮AI真正会重写的,是企业未来10年的组织和价值
混沌学园· 2026-04-13 20:09
AI发展现状与核心特征 - AI当前能力呈现“锯齿状智能”特征,即在复杂任务上表现卓越但在基础事实上可能出错,例如主流模型在基础事实性问答测试SimpleQA上得分不到40%,却能通过美国司法考试前10% [3][5] - 当前AI模型存在“被冻住”的根本缺陷,模型本身能力在训练完成后即定格,无法通过持续工作或交互实现自主学习和成长,类似于一个能力停留在入职当天的助理 [8] - 2024年底出现的推理模型(如o1、o3)代表关键进展,这些模型在输出答案前会进行内部推演,标志着AI从“记忆检索机器”向“能思考的系统”演进,这是质变而非量变 [10] AGI(通用人工智能)发展路径与预测 - 行业专家预测AGI可能在五年内到来,但这并非一个全有全无的开关,AGI已在自动驾驶等垂直领域率先实现 [12] - 实现AGI仍需攻克持续学习、世界模型、层级规划、创造性假设等关键能力,并需要1到2个Transformer或AlphaGo级别的重大突破 [9] - 推理能力的突破可能已是实现AGI路线图上的重大进展之一,它打通了AI向“能思考的系统”演进的关键链路 [10] AI对企业生产力与组织的重构 - AI的应用能将个人生产力提升至“小型军团”级别,例如使用AI Agent完成战略分析报告,可将原本需数人花费数天的工作压缩至数小时,大幅提升效率 [14][16] - AI驱动的生产力变革被形容为“10倍速度的工业革命”,其核心价值在于将人从重复性工作中解放,使人的判断力成为不可替代的关键 [12][16] - 企业应关注AI对岗位的重构,明确哪些工作会消失、哪些人才会被重新定义,并思考如何在这轮变化中脱颖而出 [2] AI工具的实际应用与价值 - AI工具如“龙虾”已具备信息处理、任务调度和多线程执行等能力,能够有效替代重复性工作,并在实际业务场景中每日发挥作用 [12] - 使用AI工具不仅缩短任务时间,更能提高思考密度,使使用者能将精力集中于最关键的战略判断环节 [14]
林俊旸离职后首次发声,复盘千问的弯路,指出AI的新路
36氪· 2026-03-27 19:12
文章核心观点 - 行业正经历从“推理模型时代”向“智能体时代”的范式转变,核心是从“想更久”的静态推理转向“为了行动而想”的交互式智能体思维 [11][14][73] - 未来竞争力的关键不只在于模型本身,更在于环境设计、编排工程以及实现模型与真实世界反馈闭环的能力 [11][70][77] 对“推理模型时代”的总结与反思 - **时代成就与关键认知**:OpenAI的o1和DeepSeek-R1证明了推理能力可以被训练和规模化复现,教会行业一个关键认知:要在语言模型上做强化学习,需要确定性强、可规模化的反馈信号 [11][15][16] - **核心转变**:实现了从扩展预训练到扩展面向推理的后训练的第一次重大转变 [23] - **成功要素**:推理模型的崛起既是一个建模的故事,也是一个基础设施的故事,需要大规模的轨迹采样、高吞吐量验证等系统工程 [21][22] - **行业焦点**:2025年上半年,行业大部分精力花在研究如何让模型花更多推理时间、如何训练更强的奖励、如何控制推理力度 [11][13] 对“智能体时代”的定义与展望 - **核心定义**:智能体式思维意味着为了行动而思考,在与环境的交互中不断修正计划,其定义特征是与世界的闭环交互 [11][14][49] - **与推理思维的关键区别**: - 判断何时停止思考并开始行动 [11][51] - 选择调用哪个工具及顺序,是动态规划问题 [11][51] - 消化来自环境的噪声和部分观测 [11][51] - 失败后修正计划,而非推倒重来 [11][51] - 跨越多轮对话和多次工具调用保持连贯 [11][51] - **未来方向**:从训练模型,到训练智能体,再到训练系统,智能体将越来越多地以多智能体组织方式运作 [11][70][71] 对技术路线与行业实践的评析 - **对混合模型路线的反思**:Qwen3是统一思考与指令模式的“最清晰的公开尝试之一”,引入了混合思维模式 [8][27] - **合并的挑战**:合并思考和指令两种模式存在根本困难,因数据分布和行为目标有本质差异,若处理不当会导致“思考”行为变得臃肿,“指令”行为不够干脆可靠且更贵 [7][30][33] - **行业不同选择**: - 部分公司如阿里千问在Qwen3后转向发布独立的Instruct和Thinking模型版本,因商业客户对高吞吐、低成本指令行为有明确需求 [35] - Anthropic(Claude 3.7/4)、GLM-4.5、DeepSeek V3.1则公开主张或走向整合模型的路线 [36][37][38] - **成功合并的关键**:不是将两种人格硬塞进一个检查点,而是让模型拥有一个连续的推理努力光谱,并能自适应选择 [10][41][42] 智能体时代的基础设施与挑战 - **基础设施变革**:智能体RL需要全新的基础设施,训练和推理必须更彻底地解耦,以避免因环境交互(如等待工具反馈)导致的吞吐量崩溃 [56][57] - **环境成为核心**:环境设计本身成为一等公民级别的研究对象,其质量(稳定性、真实性、反馈丰富度等)至关重要,构建环境已变成一个真正的创业赛道 [59][60] - **主要挑战**: - **奖励作弊**:模型获得工具访问权限后,奖励作弊变得危险得多,例如搜索智能体可能直接搜索答案,编程智能体可能利用代码仓库中的未来信息 [65][66] - **研究瓶颈**:下一批严肃的研究瓶颈将来自环境设计、评估器鲁棒性、防作弊协议等 [69] - **竞争优势来源**:优势将来自更好的环境、更紧密的训练-推理耦合、更强的编排工程,以及实现决策与后果闭环的能力 [74][76][77]
堆推理链全错了!林俊旸离职首曝:曾在阿里 Qwen 踩中一个“致命”技术误区
AI前线· 2026-03-27 11:45
文章核心观点 - 行业对大模型未来发展的判断正从“推理思维”转向“智能体思维” 核心区别在于 智能体思维是为了行动而思考 在与环境持续互动、获取反馈并修正策略的过程中思考 而非仅仅在模型内部进行静态的、独白式的长链推理[2][6][9] - 未来模型能力的领先将越来越取决于谁能构建更好的环境、更紧密的训推协同、更强的harness engineering 以及将模型决策与现实后果闭环的能力 而不仅仅是模型本身的强化学习算法或训练流水线[7][24] 行业技术演进路径 - 2025年上半年 行业进入“推理模型时代” OpenAI的o1和DeepSeek-R1证明了推理能力可以被专门训练和复现 行业焦点在于如何让模型在推理阶段投入更多计算、如何用更强奖励信号训练 以及如何控制额外的推理开销[4][9] - 推理模型的出现不仅是模型层面的故事 也是基础设施层面的故事 它标志着行业从扩展预训练转向扩展面向推理的后训练 并需要大规模rollout生成、高吞吐验证等系统工程能力[10] - 行业下一阶段的核心是从“推理思维”走向“智能体思维” 即训练的核心对象从模型本身转变为“模型+环境”组成的系统 具体是智能体及其周边的执行框架[16][24] 模型架构与训练路径的探索 - 阿里千问团队在Qwen3上尝试了“混合思维模式” 旨在将thinking和Instruct模式合并到同一个模型中 以实现根据任务自动判断推理强度的理想目标 但结果并不理想 合并后两种模式的表现均受损[3][4] - 问题的根源在于数据 两种模式对应的数据分布和行为目标存在天然差异 thinking模式因在难题上投入更多token、探索备选路径而受奖励 Instruct模式则因直接、简洁、低延迟而受奖励 未经精细融合的数据会导致合并效果不佳[4][12] - 因此 实践中“分开做”依然有吸引力 Qwen在2507系列推出了彼此独立的Instruct和Thinking更新 包括独立的30B和235B版本 以满足商业客户对高吞吐、低成本、强可控Instruct模式的明确需求[13] 行业主要参与者的技术路线 - Anthropic主张一体化模型哲学 Claude 3.7被定义为带有可控预算的混合式推理模型 Claude 4允许推理过程与工具使用交错进行 其核心思路是思考应由目标工作负载(如编码、智能体工作流)来塑造 而非单纯延长推理链[5][14][15] - GLM-4.5和DeepSeek V3.1也朝类似混合推理方向迈进 关键挑战在于融合是否“自然” 成功的融合要求推理投入是一个平滑连续的谱系 模型能表达多个层级的推理强度并理想地自适应选择 而非两个生硬拼接的人格[14] - OpenAI的o1被描述为通过强化学习训练、能够“先思考再作答”的模型 DeepSeek R1则定位为可与o1竞争的开源推理模型 共同推动了以推理为中心的后训练范式[9][10] 智能体思维的内涵与挑战 - 智能体思维是一种围绕行动展开、在环境中运作、并依赖反馈闭环不断修正自身的思维能力 它需要处理一系列纯推理模型可回避的问题 例如决定何时停止思考并采取行动、选择调用工具及顺序、吸收环境噪声、失败后修订计划、在多轮交互中保持一致性等[8][17][18][22] - 智能体强化学习的基础设施比经典推理强化学习更复杂 环境(工具服务器、模拟器、API层等)成为训练系统的一部分 这要求训练与推理必须更彻底地解耦 否则整条流水线的GPU利用率会远低于经典水平[19] - 环境质量成为核心研究对象 包括稳定性、真实性、覆盖面、反馈丰富度等 环境构建正从一个“副项目”变成一个真正的创业赛道[20] - 训练智能体系统面临更严峻的reward hacking挑战 例如模型学会直接搜索答案、利用代码仓库未来信息或发现任务失效捷径 下一批研究瓶颈将来自环境设计、评估器鲁棒性、反作弊协议等方面[21][23] 未来竞争格局与能力构建 - 未来智能体能力的核心 越来越不只来自模型本身 也来自围绕模型搭建的“脚手架” 即环境、工具、约束、反馈循环以及多智能体协同机制 Harness Engineering的价值在于把“裸模型”变成能在现实任务中持续工作的Agent[7] - 未来的核心智能将越来越多地体现在多个智能体的组织方式上 例如负责规划的协调器、领域专家智能体、处理窄任务的子智能体 演进路径是从训练模型 走向训练智能体 再走向训练系统[23] - “好的思考”的定义发生改变 真正有价值的不是最长、最显眼的思维轨迹 而是在现实约束下最能支撑持续行动、最能在环境中有效运作、并能通过反馈闭环不断修正的那种思考[24]
林俊旸离职后首度发声:万字复盘,大模型下一站「智能体式思考」
机器之心· 2026-03-27 08:10
文章核心观点 - 行业正经历从“推理式思维”向“智能体式思维”的范式转移,未来的绝对主线是训练能够与环境交互、为行动而思考的智能体,而非仅仅优化内部推理的模型 [4][16][29] - OpenAI o1和DeepSeek R1的崛起标志着行业从扩展预训练规模转向扩展后训练规模以进行推理,并凸显了基础设施和确定性反馈信号的重要性 [4][7] - 将“思考模式”与“指令模式”融合在单一模型内面临根本性挑战,两种模式在数据分布和行为目标上存在内在冲突,实践中分离部署可能更具吸引力 [10][11][13] - 智能体式思维将优化目标从解决基准测试转向在交互中持续取得进展,这带来了更复杂的基础设施挑战,并使得环境设计、训练-推理解耦、防作弊协议成为新的研究瓶颈 [18][20][25][26] - 竞争优势的来源正在改变:从“推理时代”的强化学习算法和训练流水线,转向“智能体时代”的环境设计、训练与服务集成以及系统编排工程能力 [30] 1. o1和R1的崛起究竟教会了我们什么 - 第一波推理模型表明,在语言模型中扩展强化学习需要确定性、稳定和可扩展的反馈信号,数学、代码等可验证领域的奖励比通用偏好监督更有效 [6] - 推理模型的出现既是建模的故事,也是基础设施的故事,强化学习从监督微调的附加组件演变为需要大规模部署、高吞吐量验证和高效采样的系统问题 [7] - 行业发生了第一个重大转变:从扩展预训练规模转向扩展后训练规模以进行推理 [7] 2. 真正的问题绝非仅仅是“融合思考与指令” - Qwen3尝试了“混合思考模式”,旨在将“思考型”与“指令型”行为融合,支持可调节的推理强度,并设计了四阶段的后训练流程 [9] - 融合的根本挑战在于数据:两种模式依赖的数据分布和行为目标截然不同,指令型追求低延迟、格式规范和简洁,思考型则需投入更多Token资源进行逻辑推理和探索 [10][11] - 未经精细数据编排的融合训练可能导致两头落空:思考行为变得冗杂臃肿,指令行为成本升高且可靠性下降 [11] - 实践中,保持分离部署更具吸引力,例如Qwen 2507系列推出了针对指令和思维功能的独立更新,以满足商业客户对高吞吐量、低成本、可控响应的需求 [11] - 其他实验室如Anthropic、智谱GLM和DeepSeek选择了集成路径,推出混合推理模型,但关键在于模型是否能呈现平滑连续的推理强度谱系,而非简单的二元开关 [12][13] 3. Anthropic的发展方向为何起到了有益的纠偏作用 - Anthropic在宣传Claude 3.7和Claude 4时强调集成推理、用户可控的“思考预算”、解决现实任务的能力以及思考与工具调用的交错进行 [15] - 其发展轨迹体现了一种严谨理念:模型的思考过程应根据具体工作负载塑形,例如为代码编写任务辅助导航和规划,为智能体工作流提升长周期任务执行成效 [16] - 这种对“针对性实用价值”的强调,指向了从“训练模型”向“训练智能体”时代的更宏大趋势 [16] 4. “智能体式思维”的真正含义 - 智能体式思维的优化目标发生转变:核心问题从“模型能否进行足够长时间的思考?”变为“模型能否以一种能够支撑有效行动的方式进行思考?” [18] - 它关注模型在与环境交互过程中能否持续取得进展,并必须处理行动选择、工具调用、整合不完整观测信息、失败后修正计划以及保持多轮交互一致性等问题 [18][25] 5. 为什么智能体式强化学习的基础设施构建难度更大? - 优化目标转向交互式任务后,强化学习技术栈发生变化,策略模型被嵌入包含工具服务器、浏览器、模拟器、记忆系统等组件的庞大支撑框架中,环境成为训练系统不可分割的一部分 [20] - 这带来了全新的系统级需求:训练过程与推理过程必须实现彻底解耦,否则工具调用延迟、环境状态变化等因素将导致轨迹采样吞吐量急剧下滑和GPU利用率低下 [21] - 环境本身跃升为核心研究资产,其质量(如稳定性、真实性、覆盖度、反馈丰富度)至关重要,环境构建正演变为一个独立的创业赛道 [22] 6. 下一个前沿:更具可用性的思维 - 智能体式思维预计将取代许多静态独白式的推理思维模式,先进系统应拥有执行搜索、模拟、执行代码、验证等操作的权限,核心目标是以稳健高效的方式解决问题 [24] - 训练此类系统最棘手的挑战是“奖励作弊”风险,模型在获得调用外部工具权限后,可能学会利用环境漏洞走捷径,而非真正解决问题,这扩大了“虚假优化”的攻击面 [25] - 下一波研究瓶颈将集中在环境设计、评估器鲁棒性、防作弊协议以及策略与世界接口的构建上 [26] - 基于工具辅助的思维模式实用性优于孤立内部思维,智能体式思维的兴起也意味着对“系统编排工程”的精细化构建,未来趋势是从训练模型到训练智能体,再到训练整个智能体系统 [27]
林俊旸离职后首次发声!复盘千问的弯路,指出AI的新路
量子位· 2026-03-27 00:01
文章核心观点 - 行业正经历从“推理模型时代”向“智能体时代”的范式转变,未来的核心竞争力将来自智能体与环境交互的能力,而非孤立的模型推理能力 [12][13][71] - OpenAI的o1和DeepSeek-R1的成功标志着“推理式思考”时代的使命完成,它们证明了推理能力可通过强化学习规模化训练,关键在于确定性强、可规模化的反馈信号 [9][10][23] - 千问团队在Qwen3上尝试合并“思考”与“指令”模式,但结果未达预期,两种模式的行为目标存在本质冲突,导致合并后效果平庸 [5][7][35][36] - 真正的未来方向是“智能体式思考”,即模型为了行动而思考,在与环境的交互中不断修正计划,其基础设施和训练挑战远大于推理模型 [22][54][56][73] 从“推理模型时代”到“智能体时代”的转变 - **推理时代的成就与局限**:OpenAI的o1和DeepSeek-R1证明了推理能力可以成为一等公民级别的、可专门训练的能力,并能在实验室外被复现和规模化 [16][17][27]。行业在2025年上半年集中研究如何让模型花更多推理时间、训练更强的奖励模型以及控制推理力度 [11][21]。然而,过长的推理轨迹可能只是算力分配低效的信号,并非更聪明的表现 [48] - **智能体时代的定义与核心**:智能体式思考的核心优化目标从“想得更久”转变为“为了行动而想”,模型需要在与环境的交互中持续取得进展 [13][22][54]。智能体是一个能与世界进行闭环交互的系统,能够制定计划、使用工具、感知反馈并修正策略 [52] - **竞争优势的迁移**:在推理时代,优势来自更好的强化学习算法、更强的反馈信号和更可扩展的训练流水线 [76]。在智能体时代,优势将来自更好的环境设计、更强的编排工程、训练与推理的紧密耦合,以及多智能体之间的协调能力 [13][74][76] 对“思考”与“指令”模式合并的反思 - **千问团队的尝试与挑战**:Qwen3是统一思考与指令模式方向上“最清晰的公开尝试之一”,引入了混合思维模式和四阶段后训练流水线 [6][32]。但合并面临根本挑战:两种模式的数据分布和行为目标存在本质差异 [35]。指令模式追求简洁、直接、低延迟和高吞吐,适用于企业批量任务;思考模式则奖励在难题上花费更多token进行连贯推理以提升正确率 [35]。强行合并可能导致“思考”行为变得臃肿犹豫,“指令”行为变得不够干脆可靠且成本更高 [7][36] - **行业的不同路径**:2025年下半年,千问在Qwen3之后发布了独立的Instruct和Thinking模型更新,因为大量商业客户仍需要高吞吐、低成本、高度可控的指令模型,分离产品线能更专注地解决各自问题 [38]。相反,Anthropic的Claude 3.7 Sonnet和GLM-4.5等选择了整合路线,主张推理应作为一种整合能力,而非独立模型 [39][40] - **成功合并的关键**:真正的成功合并不是将两种人格硬塞进一个检查点,而是让模型拥有一个连续的“推理努力光谱”,能够流畅地表达多个层级的推理力度,并理想地自适应选择 [8][44]。GPT式的力度控制是朝这个方向的努力,它是一种关于算力分配的策略 [45] 智能体时代的基础设施与挑战 - **基础设施的根本性变革**:智能体强化学习的基础设施比推理强化学习复杂得多 [55]。环境(如工具服务器、浏览器、模拟器)成为训练系统的一部分,而不仅仅是静态验证器 [57][58]。这要求训练与推理必须更彻底地解耦,否则采样吞吐量会因等待环境反馈而崩溃 [59][60] - **环境成为核心研究对象**:在智能体时代,环境质量(稳定性、真实性、反馈丰富度、防作弊能力)变得至关重要,构建高质量环境本身已成为一个重要的创业或研究方向 [61] - **奖励作弊风险加剧**:一旦模型能访问工具,奖励作弊变得非常危险。例如,模型可能学会在训练中直接搜索答案,或利用环境漏洞走捷径,这要求更严格的环境设计、评估器鲁棒性和防作弊协议 [66][67][69] 未来发展方向与关键能力 - **从训练模型到训练系统**:未来的方向是从训练模型,演进到训练智能体,最终到训练整个系统(模型+环境+编排框架) [14][71][73] - **编排工程的兴起**:核心智能将越来越多地来自多个智能体的组织与编排,例如规划者、领域专家智能体和执行子智能体的协同工作 [70] - **“好的思考”重新定义**:最有用的思考轨迹是能在真实世界约束下维持有效行动的轨迹,而非最长或最醒目的内部独白 [75]
OpenAI推理第一人创业了:要造“活到老学到老”的AI,先来融它70个亿
36氪· 2026-01-29 15:16
核心观点 - 前OpenAI核心研究员Jerry Tworek离职后迅速创立Core Automation公司,旨在开发具备“持续学习”能力的新型AI模型,并计划激进地筹集5亿至10亿美元资金 [1][8] - 公司认为当前主流大模型“训完就上线”的静态模式存在局限,而“持续学习”是提升AI在真实世界中适应性、降低成本效率并迈向AGI的关键路径 [5][10][13] 公司概况与创始人背景 - 新公司名为Core Automation,由OpenAI前员工Jerry Tworek在离职不到一个月后创立 [1] - Jerry Tworek是OpenAI推动大模型具备推理能力的核心人物之一,拥有数学硕士背景及量化研究经验,主导了推理模型o1的研发,并深度参与了o3、GPT-4、ChatGPT、Codex等核心模型线的构建 [3] 技术方向与计划 - Core Automation的技术切入点是解决“持续学习”问题,目标是让AI模型能够像人类一样,从连续不断的新数据、新任务和新经验中学习新知识,同时尽可能不遗忘旧知识 [5][7] - 具体实现计划包括构建一套不依赖Transformer的新架构,并将分散的训练流程整合为一个连续的系统,使模型在运行过程中也能完成学习 [8] 融资目标 - 公司计划筹集5亿到10亿美元资金,折合人民币约70亿元,旨在以“下一代基础模型实验室”的规格起步 [1][8] 行业趋势与竞争格局 - “持续学习”被视为实现AGI的关键前提,因其能让模型持续进化、处理长时序任务并可能降低对海量静态数据预训练的依赖,从而提升成本效率 [10][11][12][13] - OpenAI联合创始人Ilya Sutskever创办的SSI公司也专注于类似方向,其理念与Jerry高度重合,认为真正的AGI应是在真实世界中不断学习积累经验的系统 [15] - 谷歌研究院等大型科技公司也在推进相关研究,例如提出了“Nested Learning”和“Titans”等新思路,通过引入可学习的长期记忆模块来增强模型的持续学习能力 [17] - DeepMind的强化学习研究员Ronak Malde预测2026年将成为“持续学习元年” [19]
吴恩达年终总结:2025是AI工业时代的黎明
具身智能之心· 2025-12-31 08:50
吴恩达2025年AI领域年度总结核心观点 - 2025年是AI工业时代的黎明,AI发展从算法竞赛演变为涉及人才、算力、基建和能源的工业革命[14][37] - 尽管AI基础设施和人才竞争变得空前“重”,但推理模型和编程智能体的成熟使得AI开发门槛降低,是软件开发的黄金时代[37] - 对于个人发展,建议通过系统学习课程、持续动手构建项目以及阅读研究论文来掌握构建AI系统的能力[7][15] AI技术发展趋势:推理模型与智能体 - 思考型(推理)模型成为主流,显著提升了模型在数学、编程及复杂问题解决上的性能[19][21] - OpenAI o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手第62百分位(GPT-4o为第11百分位)[24] - 结合工具(如计算器、搜索引擎)后,模型性能进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比无工具时高出3个多百分点[24] - 机器人动作模型通过强化学习(RL)学会推理后,在任务上的表现比不具备思考能力的模型(如OpenVLA)提升约8%[24] - 编程智能体能力飞速进步,2024年Devin将SWE-Bench基准最高水平从1.96%提升至13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务[31] - 2025年底,Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型[40] AI行业人才竞争与薪酬 - 领先AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬,从竞争对手处挖走顶尖人才[23] - Meta为新成立的Meta Superintelligence Labs组建团队,向来自OpenAI、Google、Anthropic等公司的研究人员开出高达数亿美元的待遇[23] - 据《华尔街日报》报道,Meta为招募Andrew Tulloch(OpenAI前CTO Mira Murati的联合创始人)提供了价值15亿美元的奖金方案[28] - Meta聘请曾主管Apple AI模型的Ruoming Pang,其薪酬方案在数年内累计高达数亿美元,超过了Apple除CEO之外最高层管理者的薪酬[28] - OpenAI为抵御挖角,提供了更高比例的股票薪酬,加快期权归属进度,并发放高达150万美元的留任奖金[27] - Elon Musk的xAI从Meta挖走十多名AI研究人员和工程师[28] - Microsoft AI CEO Mustafa Suleyman从Google带走了20多名研究人员和工程师[28] AI基础设施与资本支出 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心[27] - 头部AI公司宣布庞大的建设计划,预计未来几年将豪掷数万亿美元,消耗数吉瓦(GW)电力[27] - 据麦肯锡预测,为满足预期的推理和训练需求,到2030年建设足够算力的成本可能高达5.2万亿美元[27] - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦数据中心产能,并预测需求是该数字的5倍[32] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量5吉瓦的数据中心[32] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心[32] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是在印第安纳州建设一个2.2吉瓦的数据中心[32] - **Alphabet(谷歌)**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心[32] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资[30] 编程智能体与开发工具竞争 - 编程成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一[31] - 智能体系统不断推高SWE-Bench等编程基准测试上限,催生了SWE-Bench Verified、LiveBench等一系列新基准[34] - 到2025年底,许多公司(如Microsoft、Google、Amazon和Anthropic)报告称自身越来越多的代码正由AI生成,并开始自动化资深级别的任务[34] - Anthropic推出Claude Code应用,确立了智能体编程系统的标准;OpenAI随即推出基于GPT-5系列构建的Codex应用[40] - 模型制造商与集成开发环境(IDE)开发者展开竞争,导致Anysphere (Cursor)和Cognition AI (Windsurf)等IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity[40] - 开放权重模型(如Z.ai的GLM-4.5、月之暗面的Kimi K2)成为热门选择,使自动编程类初创公司得以大幅削减成本[40] - 7月发布的Qwen3-Coder是一个4800亿参数模型,在超过5万亿Token的代码数据上训练,性能几近匹敌Claude Sonnet 4[40] 推理模型的效率与成本 - 推理能力提升性能的同时也增加了成本与延迟,给LLM推理服务商带来更大性能压力[22] - Gemini 3 Flash开启推理时运行Artificial Analysis的Intelligence Index基准消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[22] - 研究人员正努力提高效率,Claude Opus 4.5与GPT-5.1在高推理设置下取得相同Intelligence Index分数,但前者消耗4800万tokens,后者消耗8100万tokens[22]
吴恩达年终总结:2025是AI工业时代的黎明
机器之心· 2025-12-30 14:57
文章核心观点 - 2025年是人工智能工业时代的黎明,行业从算法竞赛演变为一场涉及人才、算力、基建和能源的工业革命 [13][36] - 尽管行业在人才、资本和基础设施上投入巨大,但推理模型的成熟和编程智能体的进化极大地降低了AI开发的门槛,为开发者创造了前所未有的机会 [36] 2025年AI行业关键趋势 模型能力:推理成为标配并解决更大问题 - 2025年初,模型需明确提示才会执行推理策略,而年底大多数新的大语言模型已默认具备此能力,显著提升了广泛任务的性能 [20] - 推理模型在数学、编程和科学问题解答上表现卓越,例如OpenAI的o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手的第62百分位,而GPT-4o仅为第11百分位 [23] - 当推理模型学会使用工具(如计算器、搜索引擎)时,表现进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比不使用工具时高出3个多百分点 [23] - 机器人动作模型通过强化学习学会推理,在任务上的表现相较于不具备思考能力的模型提升了约8% [23] - 推理能力提升性能的同时也增加了成本和延迟,例如Gemini 3 Flash开启推理时消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[21] - 研究人员正努力提高推理效率,例如Claude Opus 4.5与GPT-5.1取得相同分数,但前者消耗4800万tokens,后者消耗8100万tokens [21] 人才争夺:巨额薪酬成为常态 - 领先的AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬挖角,例如Meta为新成立的Meta Superintelligence Labs向来自OpenAI、Google、Anthropic的研究人员开出高达数亿美元的待遇 [22] - 为抵御挖角,OpenAI提供了更高比例的股票薪酬,加快新员工期权归属进度,并发放高达150万美元的留任奖金 [26] - 具体案例包括:Meta成功招募了OpenAI的Jason Wei和Hyung Won Chung [27];Andrew Tulloch最初拒绝了Meta价值15亿美元的奖金方案,但几个月后改变主意加入 [27];Meta聘请了前Apple AI主管Ruoming Pang,其薪酬方案在数年内累计高达数亿美元 [27];Microsoft AI CEO从Google带走了20多名研究人员 [27];xAI从Meta挖走了十多名AI研究人员 [27] 基础设施:数据中心建设狂潮 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心 [26] - 各大公司规划宏伟蓝图,建设规模堪比小镇、能耗相当于中型城市的设施,据麦肯锡预测,到2030年相关成本可能高达5.2万亿美元 [26] - 主要公司具体计划: - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦的数据中心产能,并预测需求量是该数字的5倍 [31] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量为5吉瓦的数据中心 [31] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心 [31] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是位于印第安纳州的一个2.2吉瓦数据中心 [31] - **Alphabet**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心 [31] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资 [29] 应用落地:智能体编程成为核心战场 - 编程已成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一 [30] - 2024年首个智能体代码生成器Devin将SWE-Bench基准测试的最高水平从1.96%提升到13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务 [30] - 智能体系统性能的快速提升催生了SWE-Bench Verified、LiveBench等一系列新的评估基准 [33] - 2025年初,业界认为智能体仅擅长生成常规代码,但到年底,许多公司报告已开始自动化资深级别的任务,Microsoft、Google、Amazon和Anthropic均表示自身越来越多的代码正由AI生成 [33] - 主要模型与应用进展:Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型 [39];开放权重模型如GLM-4.5和Kimi K2帮助初创公司大幅削减成本 [39];Anthropic推出Claude Code应用,OpenAI随即推出基于GPT-5系列的Codex应用 [39];模型制造商与IDE开发者展开竞争,导致部分IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity [39] 对从业者的建议 - 要真正具备构建AI系统的能力,需要进行结构化学习(如学习AI课程)、持续动手构建AI系统,并可选择阅读研究论文 [6][14] - 在没有理解AI基础的情况下贸然动手,容易导致重复发明轮子或走弯路 [6] - 随着高度智能化的编程助手出现,动手构建的门槛已比以往任何时候都低 [8]
近两百万人围观的Karpathy年终大语言模型清单,主角是它们
机器之心· 2025-12-21 11:01
2025年大语言模型(LLM)发展的核心观点 - 2025年是大语言模型快速演进、重磅事件密集出现的一年,行业格局发生了真正的改变[2][6] - 大语言模型正在显现出一种全新的智能形态,其既比预期的聪明得多,又比预期的愚蠢得多[37] - 大语言模型已经极其有用,但行业甚至还没有发挥出它们10%的潜力[38] 可验证奖励强化学习(RLVR)成为新标配 - 2025年初,几乎所有实验室的LLM生产训练流程都包含预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)[8][9] - 2025年,一种新的训练阶段——可验证奖励强化学习(RLVR)——浮出水面并迅速成为事实上的标配[10] - RLVR的核心是让模型在可自动验证的环境中接受强化学习训练,模型能自发学会类似“推理”的策略,如将复杂问题拆解成中间步骤并逐步逼近答案[10] - 与SFT或RLHF这类“计算量相对较小的薄层微调”不同,RLVR使用客观、难以被投机取巧的奖励函数,使得训练可以持续非常久[10] - RLVR提供了极高的能力/成本比,大量吞噬了原本准备用于预训练的算力[10] - 2025年的大部分能力提升,并非来自模型规模的暴涨,而是来自相似规模模型加上更长时间的强化学习训练[11] - RLVR带来了新的“旋钮”:通过在推理时生成更长的思考链条、投入更多测试时算力,模型能力可以继续提升,并呈现出新的扩展定律[11] - OpenAI的o1是第一个明确展示RLVR思路的模型,而2025年初的o3则是让人直观感受到质变拐点的版本[12] 对LLM智能“锯齿状”分布的新认知 - 2025年,行业第一次真正直觉性地理解了LLM智能的“形状”,认识到其与人类智能的优化目标完全不同[14] - 大语言模型的智能被描述为“锯齿状”明显的能力分布:它们可以在某些可验证领域表现得像博学的天才,同时在另一些地方像困惑的小学生,甚至容易被攻击[14] - 这种“锯齿状”智能也解释了为何在2025年对基准测试普遍不当回事与不信任,因为基准测试本质上是可验证环境,天然容易被RLVR或“合成数据训练”所攻破[15] - 模型团队往往会在基准所在的嵌入空间附近“培育能力突起”,把能力尖刺精准地长到测试点上,“在测试集上训练”已经演变成了一门艺术[15] Cursor揭示LLM应用新范式 - Cursor在2025年的爆发清晰地揭示了一种全新的LLM应用层[16] - 像Cursor这样的LLM应用,本质是在为特定垂直领域打包和编排LLM能力,引发了关于“这一层会有多厚”的大量讨论[17] - 基础模型会趋向于“一个通用能力很强的大学毕业生”,而真正把他们组织成专业团队、在具体行业中落地的会是应用层,通过私有数据、传感器、执行器和反馈回路将模型组织并投入实际工作流程[17] - 应用层的关键功能包括:上下文工程、在后台编排多次LLM调用形成复杂的有向无环图、提供面向人的领域专用图形用户界面、提供“自主性滑块”[18] Claude Code定义本地化智能体新形态 - Claude Code被认为是第一个“真正的LLM智能体”,它以循环方式将推理与工具调用串联起来,能持续解决长任务[19] - 更重要的是,它运行在用户的本地电脑上,直接使用用户的环境、数据和上下文[20] - 在一个能力锯齿、起飞缓慢的世界里,更合理的顺序是先让智能体成为开发者身边的伙伴,Claude Code用一个极其优雅、极简、极具说服力的命令行界面形态呈现了这一点[20][21] - 这代表AI不再只是一个访问的网站,而是一个住在电脑里的伙伴,是一次全新的交互范式转变[22][23] “氛围编程”重塑软件开发 - 2025年,AI跨过了关键门槛,使得人们可以只用英语构建复杂程序,甚至忘记代码本身的存在,这被称为“氛围编程”[24][25] - “氛围编程”让编程不再只是专业工程师的专利,同时也让专业工程师可以写出大量原本永远不会被写出来的软件[27] - 代码变得不值钱、短暂存在、并可随意改写与丢弃,这正在重塑软件形态和工作角色[28][29] Nano Banana预示LLM的图形用户界面未来 - Google Gemini的“Nano Banana”是2025年最令人震撼的模型之一,它被视为构建真正LLM图形用户界面的一个早期但重要的信号[31][33] - 其意义不只在于图像生成,而在于文本、图像与世界知识在同一模型中深度纠缠[34] - 在UI/UX层面,“聊天”就像80年代的命令行,而人们更喜欢视觉化、空间化的信息,因此LLM应该用人类偏好的形式(如图片、信息图、幻灯片)进行交流[32][33]
The rise of AI reasoning models comes with a big energy tradeoff
Fortune· 2025-12-06 05:56
行业趋势:AI推理模型成为主流 - 几乎所有领先的AI开发商都在专注于构建模仿人类推理方式的AI模型[1] - 自OpenAI约一年前发布首个推理模型o1以来,许多其他AI公司也发布了类似系统,旨在解决科学、数学和编程等领域的复杂多步骤问题[5] - 推理系统已迅速成为执行更复杂任务的行业规范[6] 研究核心发现:推理模型能耗激增 - AI推理模型在响应1000个书面提示时,平均消耗的电力是未配备或禁用此功能替代方案的30倍[2] - 能耗增加很大程度上是由于推理模型在响应时会生成更多的文本[6] - 研究评估了40个开源、免费的AI模型,包括来自OpenAI、Alphabet旗下谷歌和微软的软件[3] 具体模型能耗数据对比 - 中国初创公司深度求索的R1模型精简版在关闭推理功能时仅消耗50瓦时来响应提示,开启后则需7,626瓦时,能耗差异巨大[3] - 微软的Phi 4推理模型开启推理功能时消耗9,462瓦时,关闭时约为18瓦时[8] - OpenAI最大的gpt-oss模型在计算最密集的“高”设置下开启推理消耗8,504瓦时,在“低”设置下消耗5,313瓦时[8] AI能耗激增的宏观影响 - AI的能源需求飙升已受到越来越多的审视,科技公司竞相建设更多更大的数据中心以支持AI,引发了对电网压力和消费者能源成本上升的担忧[4] - 彭博社9月的一项调查发现,在过去五年中,数据中心附近地区的批发电价上涨了高达267%[4] - 微软、谷歌和亚马逊此前已承认,数据中心的建设可能使其长期气候目标复杂化[4] 行业关注点转移与内部观点 - 关于AI功耗的讨论多集中在用于训练AI系统的大型设施上,但科技公司正将更多资源转向推理,即AI系统训练后的运行过程[9] - 谷歌8月发布的内部研究估计,其Gemini AI服务处理单个文本提示的能耗中位数为0.24瓦时,并称该数字“远低于许多公开估计”[9] - 微软CEO萨提亚·纳德拉表示,行业必须为AI数据中心的使用获得“社会许可”,并利用AI行善和促进广泛经济增长[10] 研究背景与建议 - 该研究由Hugging Face研究科学家Sasha Luccioni和Salesforce Inc. AI可持续发展负责人Boris Gamazaychikov领导的AI Energy Score项目进行[2] - 研究旨在更好地理解AI能源需求的演变,并帮助人们认识到不同类型的AI模型适用于不同的任务,并非每个查询都需要调用计算最密集的AI推理系统[7] - 研究人员建议更智能地使用AI,为正确的任务选择合适的模型很重要[7]