Workflow
推理模型
icon
搜索文档
GPT-5.2破解数论猜想获陶哲轩认证,OpenAI副总裁曝大动作
36氪· 2026-01-29 21:24
OpenAI发布AI科研平台Prism并成立OpenAI for Science团队 - 公司于凌晨发布了新一代AI科研平台Prism,该平台由GPT-5.2加持,供科学家撰写和协作研究,即日起向所有拥有ChatGPT个人账户的用户免费开放 [1] - 公司副总裁Kevin Weil表示,目标是赋予每位科学家AI超能力,让世界在2030年就能开展2050年的科学研究 [1] - 公司于2025年10月宣布成立全新的OpenAI for Science团队,核心致力于探索大语言模型助力科研人员的路径,并优化旗下工具为科研人员提供支持 [1] OpenAI布局科研领域的战略意图与竞争格局 - 公司认为,通用人工智能(AGI)能为人类创造的最重大、最积极的价值,正是其推动科学进步的能力,例如帮助探索全新的药物、材料和器械 [3] - 在AI科研领域,公司已面临激烈竞争,谷歌DeepMind早在数年前便已成立AI-for-science团队,并打造了AlphaFold、AlphaEvolve等具有开创性的科学模型 [2] - 公司布局OpenAI for Science,很大程度上是为了在科研这一新领域抢占先机,因为真正的技术创新尚未到来 [16] GPT-5系列模型在科研中的能力评估与表现 - 公司副总裁Kevin Weil评价当前模型的实际能力时表示,模型还达不到取得颠覆性新发现的水平,但能让人不必把时间浪费在已经解决的问题上,这也是对科研的一种加速 [2] - 搭载了推理模型的GPT-5,在解决复杂问题方面较GPT-4有了质的飞跃,在包含400多道博士级专业问题的GPQA基准测试中,GPT-4正确率为39%,而GPT-5.2正确率达到92% [5] - 模型能力被认为早已超过90%的研究生,甚至达到了人类能力的极限,例如能在国际数学奥林匹克竞赛中取得金牌级成绩 [5] - 模型擅长找到科研人员尚未意识到的现有研究成果及关联线索,协助草拟数学证明过程,并为实验室验证假说提供实验思路 [8] - 模型几乎阅读了过去30年发表的每一篇论文,不仅能理解本领域内容,还能从其他不相关的领域中提炼出可类比的思路 [9] GPT-5在科研应用中的实际案例与用户反馈 - 一位开通了GPT-5付费服务的科研人员反馈,GPT-5会犯一些比人更愚蠢的低级错误,但一直在进步 [2] - 范德堡大学物理与天文学教授Robert Scherrer表示,他和研究生为一个问题钻研了数月都毫无头绪,GPT-5却成功解决了它,但模型仍会犯一些低级错误 [10] - 非营利性研究机构杰克逊实验室的生物学教授Derya Unutmaz表示,以前需要几个月才能完成的数据集分析,现在用大语言模型就能完成,不用大语言模型已经行不通了 [10] - 加州大学伯克利分校的统计学家Nikita Zhivotovskiy认为,大语言模型最有用的地方在于能挖掘出其研究工作与一些未知现有研究成果之间的意外关联,但几乎没见过模型能提出真正值得单独发表的全新观点 [10] - 利物浦大学化学教授Andy Cooper表示,其团队并不会借助大语言模型构思研究思路,但这项技术已开始在更庞大的自动化系统中显现实用价值,比如大语言模型可协助操控机器人 [11] 模型存在的缺陷、引发的争议及优化方向 - 模型存在“幻觉”问题,曾导致科学期刊论文出现核心思路错误,例如将检测非线性理论的实验方案错误地设计为检测非定域性理论 [12] - 去年10月,公司高管曾宣称GPT-5已为多个数学未解难题找到解决方案,但事后被数学家指出只是从早期研究论文中挖掘出了已有的答案,相关帖子随后被删除 [6] - 近期有消息称,GPT-5.2 Pro破解了一道埃尔德什猜想(第281号),其提出的新证明方法已被菲尔茨奖得主陶哲轩验证并收录,证明思路与之前的方法“相当不同” [7] - 公司正对模型整体设计作两大思路优化:一是让GPT-5在给出答案时降低置信度,具备认知层面的谦逊性;另一方向是利用GPT-5反向对自身输出进行事实核查 [3][14] - 公司正在探索让模型充当自身校验者的工作流程,即一个模型完成初步推理,再将结果交由另一模型审核,通过筛选和反馈进行改进,这与谷歌DeepMind为AlphaEvolve打造的模式高度相似 [15] 对AI驱动科研未来的展望与预测 - 公司副总裁Kevin Weil预测,2026年对于科研领域的意义,将堪比2025年之于软件工程,一年后,倘若一名科研人员还未深度运用AI开展研究,就可能已经落后 [3] - 范德堡大学教授Robert Scherrer表示,如果当前的发展趋势能持续下去,很快所有科研人员都会用上大语言模型 [10] - 加州大学伯克利分校统计学家Nikita Zhivotovskiy相信大语言模型正在成为科学家们必不可少的技术工具,就像曾经的计算机和互联网一样,那些拒绝使用这类工具的人将会长期处于劣势 [10]
一个被忽视的Prompt技巧,居然是复制+粘贴。
数字生命卡兹克· 2026-01-22 11:09
文章核心观点 - 一种名为“提示词重复”的简单技巧能显著提升非推理类大语言模型的回答准确率 该方法仅需将用户问题原样复制粘贴一遍 无需添加任何额外指令或解释 根据谷歌论文的实验结果 在70个基准模型组合测试中 该方法在47个组合中胜出 其余23个打平 无一失败 部分任务准确率可从21%飙升至97% [1][5][7][25] - 该技巧主要适用于非推理模型 对已具备思维链能力的推理模型效果有限 其原理在于大模型是因果语言模型 重复问题为模型提供了“回头看”的机会 使其在第二次处理问题时能结合第一次的全部信息进行更准确的表征和判断 [14][28][30][31] - 这一发现挑战了人们对提示词工程复杂化、玄学化的普遍认知 表明对于许多纯粹的问答场景 最简单直接的重复操作可能是最有效的优化手段 其思想可类比人类社会的复述、强调等行为 并可能影响未来模型的训练与推理优化方向 [45][46][48][51][52] 实验设计与方法 - 谷歌的研究测试了七个主流非推理大模型 包括Gemini 2.0 Flash、Flash Lite、GPT-4o、GPT-4o-mini、Claude 3 Haiku、Claude 3.7 Sonnet以及DeepSeek V3 均通过官方API进行测试 [13] - 测试任务涵盖多个常见基准数据集 如ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH等 并包含两个自定义任务:NameIndex和MiddleMatch 用于测试模型在列表索引和中间匹配场景下的表现 [18][19][20] - 实验方法极为简单 仅将原始查询模板从“<查询>”改为“<查询><查询>” 即在原问题后不加任何修饰地直接重复一遍问题本身 然后对比两种方式下模型的回答准确率 [22][23] 实验结果与数据 - 提示词重复方法在70个基准模型组合测试中赢得了47次 其余23次打平 没有一次失败 所有测试模型的性能均得到了改善 [7][25] - 性能提升显著且广泛 在某些任务上 模型的准确率从21.33%大幅提高至97.33% [1][7] - 衍生实验表明 将提示词重复三遍也能带来类似的性能提升效果 [27] 技术原理阐释 - 大语言模型通常采用因果语言模型架构 在生成下一个词时只能看到之前的文本 无法前瞻后续内容 [28][29] - 当问题被重复时 例如从“Q”变为“Q1Q2” 模型在处理第二个问题“Q2”的每个词时 其注意力机制可以“看到”第一个问题“Q1”的全部内容 这相当于为模型提供了一次回顾和重新思考整个问题的机会 [30][31] - 通过一个选择题的例子进行类比说明:第一次阅读选项时 模型缺乏后续的场景信息作为判断依据 而当问题重复后 模型在第二次处理选项时 已经携带了第一次获得的完整场景信息 从而能做出更准确的判断 [34][36][37] 适用性与影响 - 该技巧主要对非推理模型有效 例如DeepSeek V3 而对于像DeepSeek R1这类具备深度思考能力的推理模型效果不明显 因为推理模型在思考过程中已经自发地学会了复述问题这一技巧 [14][40][41] - 非推理模型与推理模型的核心区别在于速度与准确性的权衡 非推理模型响应速度快但准确性相对较低 推理模型准确性高但速度慢 提示词重复技巧可以在不牺牲非推理模型速度的前提下 大幅提升其准确性 因此在许多实际应用场景中具有重要价值 [15][17][18] - 这一发现促使人们重新思考提示词工程的价值 对于许多短问题问答场景 复杂的提示词结构可能并非必要 最简单的重复操作可能带来最显著的收益 [45][50][51] 未来展望与引申思考 - 论文提出了未来的研究方向 包括将提示词重复结构融入模型的预训练或微调流程 优化推理阶段的键值缓存以提升效率 尝试只重复提示词的关键部分 以及探索在多模态输入上的应用等 [52] - 文章将这一技术原理引申至人类行为与社会现象 指出重复是人类社会中普遍存在的强化认知和情感的手段 如复述、强调、朗诵、宣誓等 人工智能世界的规律在某种程度上是高度压缩后的人类世界规律的反映 [55][62][65] - 最终 文章建议在面对复杂问题或混乱情境时 无论是与AI交互还是处理个人事务 重复核心信息以聚焦重点可能是一种简单而有效的策略 [66][67][68]
MIT新论文:2026推理模型过时了,“套娃模型”当立
36氪· 2026-01-04 18:09
新模型范式:递归语言模型 - 核心观点:麻省理工学院提出名为“递归语言模型”的新范式,通过代码环境驱动递归推理,在长文本处理能力、成本效益和性能稳定性上显著超越以GPT-5为代表的传统推理模型,并可能成为主流[1][2][7] - 技术原理:模型将长文本作为字符串变量存入外部Python环境,通过编写并执行代码来交互式地索引、读取和处理文本,从而将处理能力与模型自身上下文窗口解耦,仅受物理内存限制[3][8] - 核心流程:模型进入“编写代码-观察执行结果”的迭代循环,并可通过递归调用自身或子模型处理分解后的子任务,子任务结果存储在环境变量中供后续整合,使整个处理过程保持在原始上下文窗口限制内[10][11][12][13] - 涌现能力:模型自发学会使用正则表达式等工具先检索后阅读,并利用变量拼接来生成超长答案,构建了外部可编程工作记忆空间,在不改变神经网络权重的情况下提升了复杂长文本的逻辑推理能力[15] 性能表现与成本优势 - 处理规模:有效处理规模达到1000万Token级别,超出GPT-5等前沿模型原生上下文窗口两个数量级[16] - 性能稳定性:在输入长度超过特定阈值后,RLM在任务完成质量上保持得分稳定性,而传统基础模型在复杂任务中性能随输入长度增加而下降[16] - 复杂任务表现:在OOLONG-Pairs测试中,RLM架构下的GPT-5和Qwen3-Coder分别取得了58.00%和23.11%的F1分数,而它们的基础模型F1分数不足0.1%[18] - 成本效益:在BrowseComp-Plus基准测试中,GPT-5-mini处理600万至1100万Token输入的理论成本约为1.50至2.75美元,而RLM的平均实际花费仅为0.99美元,改变了“上下文越长成本越高”的线性规律[19][20][22]
Sebastian Raschka万字年终复盘:2025,属于「推理模型」的一年
机器之心· 2026-01-02 17:30
文章核心观点 - 2025年大语言模型领域的发展重点从单纯的参数规模扩展转向了推理能力的强化,以DeepSeek R1为代表的开放权重模型及其采用的RLVR和GRPO算法成为年度技术风向标,同时行业在架构、评估和工具使用等方面也取得了显著进展[1][3][4] 推理模型与算法进展 - 2025年是“推理之年”,DeepSeek R1的发布证明了通过强化学习(特别是RLVR和GRPO算法)可以开发出具有类似推理行为的模型,这改变了行业对模型改进方式的认知[5][6] - DeepSeek R1作为开放权重模型,其性能媲美当时最好的专有模型,并且其成本远低于预期,训练DeepSeek V3模型的成本估计约为557.6万美元,而在其基础上训练R1模型的额外成本仅需29.4万美元[9][10][12] - RLVR中的“可验证奖励”允许使用确定性方法为数学和代码等领域分配正确性标签,从而能够在大规模数据上对LLM进行高效的后训练[13][15][16] - 继DeepSeek R1之后,几乎所有主要的开放权重或专有LLM开发商都发布了其模型的推理(“思考”)变体,标志着RLVR和GRPO成为年度主导技术[19] 大语言模型开发重点演变 - 近年来LLM开发的重点呈现累积性演进:2022年是RLHF+PPO,2023年是LoRA等参数高效微调,2024年是中期训练,而2025年的焦点是RLVR+GRPO[20][21][22] - 预计未来发展方向包括:将RLVR扩展到数学和代码以外的领域、更多地关注推理时扩展(让模型在生成答案时花费更多资源以提升准确性)、以及持续学习(在不重新训练的情况下更新模型知识)[25][27][28][31] 大语言模型架构趋势 - 最先进的模型仍基于解码器风格的Transformer,但开放权重LLM普遍收敛于使用混合专家层以及分组查询注意力、滑动窗口注意力或多头潜在注意力等高效注意力机制[42][43] - 同时,行业也出现了更激进的效率调整架构,如Qwen3-Next和Kimi Linear中的Gated DeltaNets,以及NVIDIA Nemotron 3中的Mamba-2层,旨在实现随序列长度的线性扩展[43] - 预测未来几年基于Transformer的架构仍将主导高性能建模,但出于成本和效率考虑,Gated DeltaNet和Mamba层等高效工程调整将越来越普遍,文本扩散模型等替代方案仍处于实验阶段[53] 推理扩展与工具使用 - 2025年的进步不仅来自训练数据和架构的扩展,更得益于更好的训练流程(中期和后训练)以及推理扩展,后者让LLM能按需投入更多资源解决复杂任务[54] - 工具使用是减少LLM幻觉的重大改进方向,例如让LLM调用搜索引擎或计算器API来获取准确信息,OpenAI的gpt-oss模型就是早期专注于工具使用的开放权重模型之一[54][55] - 基准测试数据显示,使用工具能显著提升模型在多项任务上的表现,例如gpt-oss-120b模型在AIME 2024基准上,使用工具后准确率从56.3%提升至75.4%[56] 行业评估困境与数据优势 - 2025年的年度词汇是“极限刷榜”,指过度优化公开基准测试分数,导致分数无法真实反映模型的实际能力和实用性,基准测试作为LLM性能指标的可信度下降[60][61][63] - 随着通用能力提升趋于平稳,高质量的私有数据将成为LLM在特定行业确立优势的关键,但许多公司因数据是其核心差异化资产而拒绝出售给外部LLM提供商[84][85] - LLM开发正变得越来越商品化,预计未来拥有预算的大型机构将更倾向于开发利用其私有数据的内部LLM,而非完全依赖外部通用模型[88][89] AI辅助工作与影响 - LLM被视为赋予专业人士“超能力”的工具,能大幅提高个人效率,例如自动化编写命令行参数等平凡编码任务,或帮助发现代码错误和改进想法[65][66][68] - 然而,完全由LLM生成的代码库无法取代专家精心设计和构建的系统,深入的专业知识对于有效利用LLM指导和改进工作成果至关重要[71] - 在技术写作和研究领域,LLM是强大的辅助工具,可以帮助检查错误、提高清晰度,但无法替代人类作者的深度判断和专业知识,核心工作仍取决于人类[72][76] - 需警惕过度依赖LLM可能导致工作空虚感和职业倦怠,理想的方式是将AI视为加速学习和扩展工作能力的合作伙伴,而非完全外包思考的替代品[77][80][81]
吴恩达年终总结:2025年或将被铭记为「AI工业时代的黎明」
华尔街见闻· 2025-12-31 11:10
行业核心观点 - 2025年或将被铭记为AI工业时代的黎明 模型性能通过推理能力达到新高度 基础设施建设成为推动美国GDP增长的关键力量 顶尖科技公司为争夺人才展开前所未有的薪酬战 [1] - 随着技术更紧密地融入日常生活 新的一年将进一步巩固这些变革 [2] 基础设施建设与资本开支 - 以OpenAI 微软 亚马逊 Meta和Alphabet为首的科技巨头宣布了令人咋舌的基础设施投资计划 每一吉瓦数据中心容量建设成本约为500亿美元 [3] - OpenAI与其合作伙伴宣布耗资5000亿美元的"Stargate"项目 并计划最终在全球建设20吉瓦的容量 [3] - 微软在2025年的全球数据中心支出达到800亿美元 并签署一项为期20年的协议 计划于2028年重启宾夕法尼亚州的三里岛核反应堆以确保持续电力供应 [3] - 贝恩公司估计 要支撑这种规模的建设 到2030年AI年收入需达到2万亿美元 这超过了主要科技巨头2024年的总盈利 [3] - 电网容量不足已导致硅谷部分数据中心闲置 [3] - 出于对债务水平的担忧 Blue Owl Capital于12月中旬退出了为Oracle和OpenAI提供100亿美元数据中心融资的谈判 [3] 人才市场竞争与薪酬 - 随着AI从学术兴趣转变为革命性技术 顶尖人才身价已飙升至职业体育明星水平 [4] - Meta在2025年打破传统薪酬结构 向来自OpenAI 谷歌和Anthropic的研究人员提供包括现金奖金和巨额股权在内的薪酬包 部分四年期合同价值高达3亿美元 [4] - 扎克伯格亲自参与人才争夺战 成功招募了OpenAI的Jason Wei和Hyung Won Chung等关键研究人员 此前与Mira Murati共同创立Thinking Machines Lab的Andrew Tulloch最终也加入了Meta [4] - 作为回应 OpenAI为新员工提供了更激进的股票期权归属时间表和高达150万美元的留任奖金 [5] 技术进展与推理模型应用 - 2025年被视为推理模型广泛应用的元年 OpenAI的o1模型和随后的DeepSeek-R1展示了通过强化学习微调模型以进行"思维链"推理的能力 显著提高了在数学 科学和编程任务中的表现 [6] - OpenAI o4-mini在结合工具使用后 在一项多模态理解测试中达到了17.7%的准确率 [7] - 技术进步直接推动了"智能体编码"的爆发 到2025年底 Claude Code 谷歌 Gemini CLI和OpenAI Codex等工具已能通过智能体工作流处理复杂的软件开发任务 [7] - 在SWE-Bench基准测试中 基于最新大模型的编码智能体能够完成超过80%的任务 [8] - 虽然苹果和Anthropic的研究指出推理模型在某些复杂逻辑上仍存在局限性 且推理过程增加了推理成本 但这并未阻挡企业利用AI自动生成代码 降低开发成本的趋势 [8]
吴恩达年终总结:2025是AI工业时代的黎明
具身智能之心· 2025-12-31 08:50
吴恩达2025年AI领域年度总结核心观点 - 2025年是AI工业时代的黎明,AI发展从算法竞赛演变为涉及人才、算力、基建和能源的工业革命[14][37] - 尽管AI基础设施和人才竞争变得空前“重”,但推理模型和编程智能体的成熟使得AI开发门槛降低,是软件开发的黄金时代[37] - 对于个人发展,建议通过系统学习课程、持续动手构建项目以及阅读研究论文来掌握构建AI系统的能力[7][15] AI技术发展趋势:推理模型与智能体 - 思考型(推理)模型成为主流,显著提升了模型在数学、编程及复杂问题解决上的性能[19][21] - OpenAI o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手第62百分位(GPT-4o为第11百分位)[24] - 结合工具(如计算器、搜索引擎)后,模型性能进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比无工具时高出3个多百分点[24] - 机器人动作模型通过强化学习(RL)学会推理后,在任务上的表现比不具备思考能力的模型(如OpenVLA)提升约8%[24] - 编程智能体能力飞速进步,2024年Devin将SWE-Bench基准最高水平从1.96%提升至13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务[31] - 2025年底,Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型[40] AI行业人才竞争与薪酬 - 领先AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬,从竞争对手处挖走顶尖人才[23] - Meta为新成立的Meta Superintelligence Labs组建团队,向来自OpenAI、Google、Anthropic等公司的研究人员开出高达数亿美元的待遇[23] - 据《华尔街日报》报道,Meta为招募Andrew Tulloch(OpenAI前CTO Mira Murati的联合创始人)提供了价值15亿美元的奖金方案[28] - Meta聘请曾主管Apple AI模型的Ruoming Pang,其薪酬方案在数年内累计高达数亿美元,超过了Apple除CEO之外最高层管理者的薪酬[28] - OpenAI为抵御挖角,提供了更高比例的股票薪酬,加快期权归属进度,并发放高达150万美元的留任奖金[27] - Elon Musk的xAI从Meta挖走十多名AI研究人员和工程师[28] - Microsoft AI CEO Mustafa Suleyman从Google带走了20多名研究人员和工程师[28] AI基础设施与资本支出 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心[27] - 头部AI公司宣布庞大的建设计划,预计未来几年将豪掷数万亿美元,消耗数吉瓦(GW)电力[27] - 据麦肯锡预测,为满足预期的推理和训练需求,到2030年建设足够算力的成本可能高达5.2万亿美元[27] - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦数据中心产能,并预测需求是该数字的5倍[32] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量5吉瓦的数据中心[32] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心[32] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是在印第安纳州建设一个2.2吉瓦的数据中心[32] - **Alphabet(谷歌)**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心[32] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资[30] 编程智能体与开发工具竞争 - 编程成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一[31] - 智能体系统不断推高SWE-Bench等编程基准测试上限,催生了SWE-Bench Verified、LiveBench等一系列新基准[34] - 到2025年底,许多公司(如Microsoft、Google、Amazon和Anthropic)报告称自身越来越多的代码正由AI生成,并开始自动化资深级别的任务[34] - Anthropic推出Claude Code应用,确立了智能体编程系统的标准;OpenAI随即推出基于GPT-5系列构建的Codex应用[40] - 模型制造商与集成开发环境(IDE)开发者展开竞争,导致Anysphere (Cursor)和Cognition AI (Windsurf)等IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity[40] - 开放权重模型(如Z.ai的GLM-4.5、月之暗面的Kimi K2)成为热门选择,使自动编程类初创公司得以大幅削减成本[40] - 7月发布的Qwen3-Coder是一个4800亿参数模型,在超过5万亿Token的代码数据上训练,性能几近匹敌Claude Sonnet 4[40] 推理模型的效率与成本 - 推理能力提升性能的同时也增加了成本与延迟,给LLM推理服务商带来更大性能压力[22] - Gemini 3 Flash开启推理时运行Artificial Analysis的Intelligence Index基准消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[22] - 研究人员正努力提高效率,Claude Opus 4.5与GPT-5.1在高推理设置下取得相同Intelligence Index分数,但前者消耗4800万tokens,后者消耗8100万tokens[22]
吴恩达年终总结:2025年或将被铭记为“AI工业时代的黎明”
华尔街见闻· 2025-12-30 20:45
文章核心观点 - 2025年被视为AI工业时代的黎明 模型性能通过推理能力达到新高度 基础设施建设成为推动美国GDP增长的关键力量 顶尖科技公司为争夺人才展开前所未有的薪酬战 [1] - 随着技术更紧密地融入日常生活 新的一年将进一步巩固这些变革 [2] 万亿级资本开支与能源挑战 - 以OpenAI、微软、亚马逊、Meta和Alphabet为首的科技巨头宣布了巨额基础设施投资计划 每一吉瓦数据中心容量建设成本约为500亿美元 [3] - OpenAI与其合作伙伴宣布耗资5000亿美元的"Stargate"项目 并计划最终在全球建设20吉瓦的容量 [3] - 微软在2025年的全球数据中心支出达到800亿美元 并签署了一项为期20年的协议 计划于2028年重启宾夕法尼亚州的三里岛核反应堆以确保电力供应 [3] - 贝恩公司估计 要支撑这种规模的建设 到2030年AI年收入需达到2万亿美元 这超过了主要科技巨头2024年的总盈利 [3] - 电网容量不足已导致硅谷部分数据中心闲置 出于对债务水平的担忧 Blue Owl Capital于12月中旬退出了为Oracle和OpenAI提供100亿美元数据中心融资的谈判 [3] 天价薪酬重塑人才市场 - Meta在2025年打破了传统的薪酬结构 向来自OpenAI、谷歌和Anthropic的研究人员提供包括现金奖金和巨额股权在内的薪酬包 部分四年期合同价值高达3亿美元 [5] - 扎克伯格亲自参与人才争夺战 成功招募了OpenAI的Jason Wei和Hyung Won Chung等关键研究人员 此前与Mira Murati共同创立Thinking Machines Lab的Andrew Tulloch最终也加入了Meta [5] - 作为回应 OpenAI为新员工提供了更激进的股票期权归属时间表和高达150万美元的留任奖金 [6] - 随着AI从学术兴趣转变为革命性技术 顶尖人才的身价已飙升至职业体育明星的水平 [9] 推理模型与智能体编码的普及 - 2025年被视为推理模型广泛应用的元年 OpenAI的o1模型和随后的DeepSeek-R1展示了通过强化学习微调模型以进行"思维链"推理的能力 显著提高了在数学、科学和编程任务中的表现 [8] - 例如 OpenAI o4-mini在结合工具使用后 在一项多模态理解测试中达到了17.7%的准确率 [10] - 技术进步直接推动了"智能体编码"的爆发 到2025年底 Claude Code、谷歌 Gemini CLI和OpenAI Codex等工具已能通过智能体工作流处理复杂的软件开发任务 [10] - 在SWE-Bench基准测试中 基于最新大模型的编码智能体能够完成超过80%的任务 [11] - 虽然苹果和Anthropic的研究指出推理模型在某些复杂逻辑上仍存在局限性 且推理过程增加了推理成本 但这并未阻挡企业利用AI自动生成代码、降低开发成本的趋势 [11]
吴恩达年终总结:2025年或将被铭记为AI工业时代的黎明
华尔街见闻· 2025-12-30 18:27
AI工业时代的开启 - 2025年标志着AI从“学术探索”正式迈向“工业化基础设施”时代,创新将模型性能推向新高度,AI驱动的应用变得不可或缺 [1][10] - AI投资成为驱动美国GDP增长的核心力量,2025年上半年数据中心和AI投资几乎占美国国内生产总值增长的全部 [1][20] - 全球年度资本支出突破3000亿美元,其中大部分用于建设新的数据中心来处理AI任务 [1][17] 万亿级基础设施投资与能源挑战 - 科技巨头开启大规模数据中心计划,单项投资动辄数千亿美元,例如OpenAI与合作伙伴宣布耗资5000亿美元的“Stargate”项目,并计划最终在全球建设20吉瓦的容量 [1][5][19] - 主要公司2025年基础设施支出巨大:微软全球数据中心支出达800亿美元,亚马逊预计支出1250亿美元,Alphabet预计支出930亿美元,Meta在基础设施项目上花费约720亿美元 [5][19] - 电力供应成为硬约束,科技公司开始通过重启核电站来保障算力需求,例如微软签署为期20年的协议计划于2028年重启宾夕法尼亚州的三里岛核反应堆以提供835兆瓦电力 [1][5][19] - 电网容量不足已导致硅谷部分数据中心闲置,且贝恩公司估计到2030年AI年收入需达到2万亿美元以支撑建设规模,这超过了主要科技巨头2024年的总盈利 [5][24] 推理模型成为主流与智能体编码爆发 - 以OpenAI o1和DeepSeek-R1为代表的推理模型成为主流,AI具备了“多步思考”能力,显著提高了在数学、科学和编程任务中的表现 [1][7][11] - 推理的早期形式通过提示“让我们一步步思考”兴起,关键是通过强化学习进行微调,训练模型在生成输出前“思考”问题 [11] - 当推理模型学会使用工具时性能更好,例如结合工具使用的OpenAI o4-mini在一项多模态理解测试中达到了17.7%的准确率,比没有工具时高出3个百分点以上 [7][14] - “智能体编码”爆发,AI智能体已能独立处理复杂的软件开发任务,到2025年底,基于最新大模型的编码智能体在SWE-Bench基准测试中能够完成超过80%的任务 [1][7][21] - 编码应用从代码补全发展到能管理广泛软件开发任务的智能体系统,Claude Code、Google Gemini CLI、OpenAI Codex等成为竞争焦点 [7][21][25] 天价薪酬重塑人才市场 - 顶尖AI人才身价飙升至职业体育明星水平,Meta在2025年打破了传统薪酬结构,向研究人员提供部分四年期合同价值高达3亿美元的薪酬包 [2][6][15] - 扎克伯格亲自参与人才争夺战,成功招募了OpenAI的Jason Wei和Hyung Won Chung等关键研究人员 [6][18] - 作为回应,OpenAI为新员工提供了更激进的股票期权归属时间表和高达150万美元的留任奖金 [6][17] - AI工程师薪资轨迹反映了AI从学术好奇心到革命性技术的演变,顶级薪酬不断攀升 [16][18] 行业竞争与公司动态 - 顶级AI公司为熟练从业者展开激烈争夺战,从竞争对手处吸引顶尖人才,Meta从OpenAI、谷歌和Anthropic挖角,而微软AI首席执行官从Google挖走了20多名研究人员 [6][18] - 埃隆·马斯克的xAI从Meta聘请了十几名AI研究人员,马斯克谴责竞争对手的“疯狂”offer [18] - 除了人才竞争,模型制造商和集成开发环境开发者之间存在拉锯战,导致一些IDE提供商构建自己的模型,而谷歌构建了自己的IDE Antigravity [25] - 开放权重模型如Z.ai GLM-4.5和Moonshot Kimi K2成为热门选择,使自动化编码初创公司能够大幅削减成本 [25] 面临的现实挑战与成本 - 推理过程增加了推理成本,例如启用推理的Gemini 3 Flash在基准测试中使用了1.6亿个token,而未推理版本仅使用740万个token [13] - 生成推理token可能会延迟输出,增加了LLM推理提供商更快服务token的压力,但研究人员正在寻找使过程更高效的方法 [13] - 苹果和Anthropic的研究指出推理模型在某些复杂逻辑上仍存在局限性,且推理步骤可能遗漏对结论有关键贡献的信息 [7][14] - 尽管存在对AI泡沫的担忧,但对于计划花费数百亿美元建设AI数据中心的公司来说,高薪被认为是合理的支出 [17]
吴恩达年终总结:2025是AI工业时代的黎明
机器之心· 2025-12-30 14:57
文章核心观点 - 2025年是人工智能工业时代的黎明,行业从算法竞赛演变为一场涉及人才、算力、基建和能源的工业革命 [13][36] - 尽管行业在人才、资本和基础设施上投入巨大,但推理模型的成熟和编程智能体的进化极大地降低了AI开发的门槛,为开发者创造了前所未有的机会 [36] 2025年AI行业关键趋势 模型能力:推理成为标配并解决更大问题 - 2025年初,模型需明确提示才会执行推理策略,而年底大多数新的大语言模型已默认具备此能力,显著提升了广泛任务的性能 [20] - 推理模型在数学、编程和科学问题解答上表现卓越,例如OpenAI的o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手的第62百分位,而GPT-4o仅为第11百分位 [23] - 当推理模型学会使用工具(如计算器、搜索引擎)时,表现进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比不使用工具时高出3个多百分点 [23] - 机器人动作模型通过强化学习学会推理,在任务上的表现相较于不具备思考能力的模型提升了约8% [23] - 推理能力提升性能的同时也增加了成本和延迟,例如Gemini 3 Flash开启推理时消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[21] - 研究人员正努力提高推理效率,例如Claude Opus 4.5与GPT-5.1取得相同分数,但前者消耗4800万tokens,后者消耗8100万tokens [21] 人才争夺:巨额薪酬成为常态 - 领先的AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬挖角,例如Meta为新成立的Meta Superintelligence Labs向来自OpenAI、Google、Anthropic的研究人员开出高达数亿美元的待遇 [22] - 为抵御挖角,OpenAI提供了更高比例的股票薪酬,加快新员工期权归属进度,并发放高达150万美元的留任奖金 [26] - 具体案例包括:Meta成功招募了OpenAI的Jason Wei和Hyung Won Chung [27];Andrew Tulloch最初拒绝了Meta价值15亿美元的奖金方案,但几个月后改变主意加入 [27];Meta聘请了前Apple AI主管Ruoming Pang,其薪酬方案在数年内累计高达数亿美元 [27];Microsoft AI CEO从Google带走了20多名研究人员 [27];xAI从Meta挖走了十多名AI研究人员 [27] 基础设施:数据中心建设狂潮 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心 [26] - 各大公司规划宏伟蓝图,建设规模堪比小镇、能耗相当于中型城市的设施,据麦肯锡预测,到2030年相关成本可能高达5.2万亿美元 [26] - 主要公司具体计划: - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦的数据中心产能,并预测需求量是该数字的5倍 [31] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量为5吉瓦的数据中心 [31] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心 [31] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是位于印第安纳州的一个2.2吉瓦数据中心 [31] - **Alphabet**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心 [31] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资 [29] 应用落地:智能体编程成为核心战场 - 编程已成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一 [30] - 2024年首个智能体代码生成器Devin将SWE-Bench基准测试的最高水平从1.96%提升到13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务 [30] - 智能体系统性能的快速提升催生了SWE-Bench Verified、LiveBench等一系列新的评估基准 [33] - 2025年初,业界认为智能体仅擅长生成常规代码,但到年底,许多公司报告已开始自动化资深级别的任务,Microsoft、Google、Amazon和Anthropic均表示自身越来越多的代码正由AI生成 [33] - 主要模型与应用进展:Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型 [39];开放权重模型如GLM-4.5和Kimi K2帮助初创公司大幅削减成本 [39];Anthropic推出Claude Code应用,OpenAI随即推出基于GPT-5系列的Codex应用 [39];模型制造商与IDE开发者展开竞争,导致部分IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity [39] 对从业者的建议 - 要真正具备构建AI系统的能力,需要进行结构化学习(如学习AI课程)、持续动手构建AI系统,并可选择阅读研究论文 [6][14] - 在没有理解AI基础的情况下贸然动手,容易导致重复发明轮子或走弯路 [6] - 随着高度智能化的编程助手出现,动手构建的门槛已比以往任何时候都低 [8]
蒸馏、GEO、氛围编程 2025年度“AI十大黑话” 能听懂几个?
36氪· 2025-12-26 17:16
文章核心观点 文章总结了《麻省理工科技评论》评出的2025年度十大AI热词,这些概念正在重塑AI行业格局,反映了技术发展、应用模式、资本动态及社会影响等多个维度的最新趋势 [1] 氛围编程 - 编程方式被重新定义,开发者只需用自然语言向AI表达应用目标、功能需求和整体体验,AI则负责自动生成和迭代代码 [2] - 这种方式由OpenAI联合创始人安德烈·卡帕西提出,被称为“氛围编程”,它代表了一种人机协作的新范式 [2] 推理模型 - “推理”成为AI讨论核心,对应推理模型的崛起,这类大语言模型通过多步拆解与连续推演处理复杂问题 [3] - 自OpenAI发布o1和o3系列后,DeepSeek迅速跟进,主流聊天机器人均已引入推理技术,在数学和编程竞赛中达到顶尖人类专家水平 [3] 世界模型 - AI研究转向构建“世界模型”,旨在让AI理解现实世界的因果关系、物理规律与时间演化,而不仅仅是生成流畅文字 [4] - 谷歌DeepMind的Genie 3、李飞飞团队的Marble以及杨立昆的新研究,都通过预测视频演化或构建虚拟环境来让AI掌握世界运转规律 [4] 超大规模数据中心 - 为满足激增的AI算力需求,科技巨头正以前所未有的规模建设专用“超级数据中心” [5] - 例如,OpenAI与美国政府合作的“星门”项目计划投入5000亿美元,建设全美史上最大规模的数据中心网络 [5] 资本与泡沫 - AI成为资本最拥挤的赛道之一,以OpenAI、Anthropic为代表的公司估值持续攀升,但多数仍处于高投入、尚未稳定盈利的阶段 [6] - 与互联网泡沫时期相比,如今顶尖AI公司收入增长迅猛,且背后有微软、谷歌等资金雄厚的科技巨头提供稳定支撑 [6] 智能体 - “智能体”是AI圈内热门但定义模糊的概念,各家宣传AI能像“智能助手”一样自主完成任务,但行业缺乏统一标准 [7] - 尽管AI尚难在复杂多变环境中稳定可靠工作,“智能体”已成为产品宣传中最热门的标签之一 [7] 蒸馏技术 - DeepSeek发布的R1模型展示了“蒸馏”技术的巧妙,让小模型学习大模型的精髓,以极低成本实现接近顶级模型的性能 [8] - 这表明打造强大AI模型未必只能依赖堆砌算力,高效的算法设计同样能带来新的可能 [8] AI垃圾 - “AI垃圾”特指为博流量而批量产生的劣质AI内容,该词已演变为一种后缀,被用来形容各种缺乏实质的事物,如“工作垃圾”、“社交垃圾” [9] - 这折射出人们对AI时代内容质量与真实性的普遍反思 [9] 物理智能 - AI在现实世界中的行动能力仍是短板,虽然机器人在特定任务上学习更快,自动驾驶模拟更逼真,但不少“智能家庭助手”产品仍需人工远程操控 [10] - 为提升能力,已有机器人公司开始向普通人征集做家务视频,表明让AI真正理解并适应物理世界仍前路漫长 [10] 生成引擎优化 - 传统搜索引擎优化正在让位于“生成引擎优化”,随着AI直接给出答案,信息获取方式发生改变 [11] - 新规则下,内容提供者需要确保其品牌、观点或内容被AI在生成的答案中引用,否则可能从用户视野中消失 [11]