o1
搜索文档
吴恩达年终总结:2025是AI工业时代的黎明
具身智能之心· 2025-12-31 08:50
吴恩达2025年AI领域年度总结核心观点 - 2025年是AI工业时代的黎明,AI发展从算法竞赛演变为涉及人才、算力、基建和能源的工业革命[14][37] - 尽管AI基础设施和人才竞争变得空前“重”,但推理模型和编程智能体的成熟使得AI开发门槛降低,是软件开发的黄金时代[37] - 对于个人发展,建议通过系统学习课程、持续动手构建项目以及阅读研究论文来掌握构建AI系统的能力[7][15] AI技术发展趋势:推理模型与智能体 - 思考型(推理)模型成为主流,显著提升了模型在数学、编程及复杂问题解决上的性能[19][21] - OpenAI o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手第62百分位(GPT-4o为第11百分位)[24] - 结合工具(如计算器、搜索引擎)后,模型性能进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比无工具时高出3个多百分点[24] - 机器人动作模型通过强化学习(RL)学会推理后,在任务上的表现比不具备思考能力的模型(如OpenVLA)提升约8%[24] - 编程智能体能力飞速进步,2024年Devin将SWE-Bench基准最高水平从1.96%提升至13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务[31] - 2025年底,Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型[40] AI行业人才竞争与薪酬 - 领先AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬,从竞争对手处挖走顶尖人才[23] - Meta为新成立的Meta Superintelligence Labs组建团队,向来自OpenAI、Google、Anthropic等公司的研究人员开出高达数亿美元的待遇[23] - 据《华尔街日报》报道,Meta为招募Andrew Tulloch(OpenAI前CTO Mira Murati的联合创始人)提供了价值15亿美元的奖金方案[28] - Meta聘请曾主管Apple AI模型的Ruoming Pang,其薪酬方案在数年内累计高达数亿美元,超过了Apple除CEO之外最高层管理者的薪酬[28] - OpenAI为抵御挖角,提供了更高比例的股票薪酬,加快期权归属进度,并发放高达150万美元的留任奖金[27] - Elon Musk的xAI从Meta挖走十多名AI研究人员和工程师[28] - Microsoft AI CEO Mustafa Suleyman从Google带走了20多名研究人员和工程师[28] AI基础设施与资本支出 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心[27] - 头部AI公司宣布庞大的建设计划,预计未来几年将豪掷数万亿美元,消耗数吉瓦(GW)电力[27] - 据麦肯锡预测,为满足预期的推理和训练需求,到2030年建设足够算力的成本可能高达5.2万亿美元[27] - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦数据中心产能,并预测需求是该数字的5倍[32] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量5吉瓦的数据中心[32] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心[32] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是在印第安纳州建设一个2.2吉瓦的数据中心[32] - **Alphabet(谷歌)**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心[32] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资[30] 编程智能体与开发工具竞争 - 编程成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一[31] - 智能体系统不断推高SWE-Bench等编程基准测试上限,催生了SWE-Bench Verified、LiveBench等一系列新基准[34] - 到2025年底,许多公司(如Microsoft、Google、Amazon和Anthropic)报告称自身越来越多的代码正由AI生成,并开始自动化资深级别的任务[34] - Anthropic推出Claude Code应用,确立了智能体编程系统的标准;OpenAI随即推出基于GPT-5系列构建的Codex应用[40] - 模型制造商与集成开发环境(IDE)开发者展开竞争,导致Anysphere (Cursor)和Cognition AI (Windsurf)等IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity[40] - 开放权重模型(如Z.ai的GLM-4.5、月之暗面的Kimi K2)成为热门选择,使自动编程类初创公司得以大幅削减成本[40] - 7月发布的Qwen3-Coder是一个4800亿参数模型,在超过5万亿Token的代码数据上训练,性能几近匹敌Claude Sonnet 4[40] 推理模型的效率与成本 - 推理能力提升性能的同时也增加了成本与延迟,给LLM推理服务商带来更大性能压力[22] - Gemini 3 Flash开启推理时运行Artificial Analysis的Intelligence Index基准消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[22] - 研究人员正努力提高效率,Claude Opus 4.5与GPT-5.1在高推理设置下取得相同Intelligence Index分数,但前者消耗4800万tokens,后者消耗8100万tokens[22]
吴恩达年终总结:2025是AI工业时代的黎明
机器之心· 2025-12-30 14:57
文章核心观点 - 2025年是人工智能工业时代的黎明,行业从算法竞赛演变为一场涉及人才、算力、基建和能源的工业革命 [13][36] - 尽管行业在人才、资本和基础设施上投入巨大,但推理模型的成熟和编程智能体的进化极大地降低了AI开发的门槛,为开发者创造了前所未有的机会 [36] 2025年AI行业关键趋势 模型能力:推理成为标配并解决更大问题 - 2025年初,模型需明确提示才会执行推理策略,而年底大多数新的大语言模型已默认具备此能力,显著提升了广泛任务的性能 [20] - 推理模型在数学、编程和科学问题解答上表现卓越,例如OpenAI的o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手的第62百分位,而GPT-4o仅为第11百分位 [23] - 当推理模型学会使用工具(如计算器、搜索引擎)时,表现进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比不使用工具时高出3个多百分点 [23] - 机器人动作模型通过强化学习学会推理,在任务上的表现相较于不具备思考能力的模型提升了约8% [23] - 推理能力提升性能的同时也增加了成本和延迟,例如Gemini 3 Flash开启推理时消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[21] - 研究人员正努力提高推理效率,例如Claude Opus 4.5与GPT-5.1取得相同分数,但前者消耗4800万tokens,后者消耗8100万tokens [21] 人才争夺:巨额薪酬成为常态 - 领先的AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬挖角,例如Meta为新成立的Meta Superintelligence Labs向来自OpenAI、Google、Anthropic的研究人员开出高达数亿美元的待遇 [22] - 为抵御挖角,OpenAI提供了更高比例的股票薪酬,加快新员工期权归属进度,并发放高达150万美元的留任奖金 [26] - 具体案例包括:Meta成功招募了OpenAI的Jason Wei和Hyung Won Chung [27];Andrew Tulloch最初拒绝了Meta价值15亿美元的奖金方案,但几个月后改变主意加入 [27];Meta聘请了前Apple AI主管Ruoming Pang,其薪酬方案在数年内累计高达数亿美元 [27];Microsoft AI CEO从Google带走了20多名研究人员 [27];xAI从Meta挖走了十多名AI研究人员 [27] 基础设施:数据中心建设狂潮 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心 [26] - 各大公司规划宏伟蓝图,建设规模堪比小镇、能耗相当于中型城市的设施,据麦肯锡预测,到2030年相关成本可能高达5.2万亿美元 [26] - 主要公司具体计划: - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦的数据中心产能,并预测需求量是该数字的5倍 [31] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量为5吉瓦的数据中心 [31] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心 [31] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是位于印第安纳州的一个2.2吉瓦数据中心 [31] - **Alphabet**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心 [31] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资 [29] 应用落地:智能体编程成为核心战场 - 编程已成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一 [30] - 2024年首个智能体代码生成器Devin将SWE-Bench基准测试的最高水平从1.96%提升到13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务 [30] - 智能体系统性能的快速提升催生了SWE-Bench Verified、LiveBench等一系列新的评估基准 [33] - 2025年初,业界认为智能体仅擅长生成常规代码,但到年底,许多公司报告已开始自动化资深级别的任务,Microsoft、Google、Amazon和Anthropic均表示自身越来越多的代码正由AI生成 [33] - 主要模型与应用进展:Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型 [39];开放权重模型如GLM-4.5和Kimi K2帮助初创公司大幅削减成本 [39];Anthropic推出Claude Code应用,OpenAI随即推出基于GPT-5系列的Codex应用 [39];模型制造商与IDE开发者展开竞争,导致部分IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity [39] 对从业者的建议 - 要真正具备构建AI系统的能力,需要进行结构化学习(如学习AI课程)、持续动手构建AI系统,并可选择阅读研究论文 [6][14] - 在没有理解AI基础的情况下贸然动手,容易导致重复发明轮子或走弯路 [6] - 随着高度智能化的编程助手出现,动手构建的门槛已比以往任何时候都低 [8]
近两百万人围观的Karpathy年终大语言模型清单,主角是它们
机器之心· 2025-12-21 11:01
2025年大语言模型(LLM)发展的核心观点 - 2025年是大语言模型快速演进、重磅事件密集出现的一年,行业格局发生了真正的改变[2][6] - 大语言模型正在显现出一种全新的智能形态,其既比预期的聪明得多,又比预期的愚蠢得多[37] - 大语言模型已经极其有用,但行业甚至还没有发挥出它们10%的潜力[38] 可验证奖励强化学习(RLVR)成为新标配 - 2025年初,几乎所有实验室的LLM生产训练流程都包含预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)[8][9] - 2025年,一种新的训练阶段——可验证奖励强化学习(RLVR)——浮出水面并迅速成为事实上的标配[10] - RLVR的核心是让模型在可自动验证的环境中接受强化学习训练,模型能自发学会类似“推理”的策略,如将复杂问题拆解成中间步骤并逐步逼近答案[10] - 与SFT或RLHF这类“计算量相对较小的薄层微调”不同,RLVR使用客观、难以被投机取巧的奖励函数,使得训练可以持续非常久[10] - RLVR提供了极高的能力/成本比,大量吞噬了原本准备用于预训练的算力[10] - 2025年的大部分能力提升,并非来自模型规模的暴涨,而是来自相似规模模型加上更长时间的强化学习训练[11] - RLVR带来了新的“旋钮”:通过在推理时生成更长的思考链条、投入更多测试时算力,模型能力可以继续提升,并呈现出新的扩展定律[11] - OpenAI的o1是第一个明确展示RLVR思路的模型,而2025年初的o3则是让人直观感受到质变拐点的版本[12] 对LLM智能“锯齿状”分布的新认知 - 2025年,行业第一次真正直觉性地理解了LLM智能的“形状”,认识到其与人类智能的优化目标完全不同[14] - 大语言模型的智能被描述为“锯齿状”明显的能力分布:它们可以在某些可验证领域表现得像博学的天才,同时在另一些地方像困惑的小学生,甚至容易被攻击[14] - 这种“锯齿状”智能也解释了为何在2025年对基准测试普遍不当回事与不信任,因为基准测试本质上是可验证环境,天然容易被RLVR或“合成数据训练”所攻破[15] - 模型团队往往会在基准所在的嵌入空间附近“培育能力突起”,把能力尖刺精准地长到测试点上,“在测试集上训练”已经演变成了一门艺术[15] Cursor揭示LLM应用新范式 - Cursor在2025年的爆发清晰地揭示了一种全新的LLM应用层[16] - 像Cursor这样的LLM应用,本质是在为特定垂直领域打包和编排LLM能力,引发了关于“这一层会有多厚”的大量讨论[17] - 基础模型会趋向于“一个通用能力很强的大学毕业生”,而真正把他们组织成专业团队、在具体行业中落地的会是应用层,通过私有数据、传感器、执行器和反馈回路将模型组织并投入实际工作流程[17] - 应用层的关键功能包括:上下文工程、在后台编排多次LLM调用形成复杂的有向无环图、提供面向人的领域专用图形用户界面、提供“自主性滑块”[18] Claude Code定义本地化智能体新形态 - Claude Code被认为是第一个“真正的LLM智能体”,它以循环方式将推理与工具调用串联起来,能持续解决长任务[19] - 更重要的是,它运行在用户的本地电脑上,直接使用用户的环境、数据和上下文[20] - 在一个能力锯齿、起飞缓慢的世界里,更合理的顺序是先让智能体成为开发者身边的伙伴,Claude Code用一个极其优雅、极简、极具说服力的命令行界面形态呈现了这一点[20][21] - 这代表AI不再只是一个访问的网站,而是一个住在电脑里的伙伴,是一次全新的交互范式转变[22][23] “氛围编程”重塑软件开发 - 2025年,AI跨过了关键门槛,使得人们可以只用英语构建复杂程序,甚至忘记代码本身的存在,这被称为“氛围编程”[24][25] - “氛围编程”让编程不再只是专业工程师的专利,同时也让专业工程师可以写出大量原本永远不会被写出来的软件[27] - 代码变得不值钱、短暂存在、并可随意改写与丢弃,这正在重塑软件形态和工作角色[28][29] Nano Banana预示LLM的图形用户界面未来 - Google Gemini的“Nano Banana”是2025年最令人震撼的模型之一,它被视为构建真正LLM图形用户界面的一个早期但重要的信号[31][33] - 其意义不只在于图像生成,而在于文本、图像与世界知识在同一模型中深度纠缠[34] - 在UI/UX层面,“聊天”就像80年代的命令行,而人们更喜欢视觉化、空间化的信息,因此LLM应该用人类偏好的形式(如图片、信息图、幻灯片)进行交流[32][33]
The rise of AI reasoning models comes with a big energy tradeoff
Fortune· 2025-12-06 05:56
行业趋势:AI推理模型成为主流 - 几乎所有领先的AI开发商都在专注于构建模仿人类推理方式的AI模型[1] - 自OpenAI约一年前发布首个推理模型o1以来,许多其他AI公司也发布了类似系统,旨在解决科学、数学和编程等领域的复杂多步骤问题[5] - 推理系统已迅速成为执行更复杂任务的行业规范[6] 研究核心发现:推理模型能耗激增 - AI推理模型在响应1000个书面提示时,平均消耗的电力是未配备或禁用此功能替代方案的30倍[2] - 能耗增加很大程度上是由于推理模型在响应时会生成更多的文本[6] - 研究评估了40个开源、免费的AI模型,包括来自OpenAI、Alphabet旗下谷歌和微软的软件[3] 具体模型能耗数据对比 - 中国初创公司深度求索的R1模型精简版在关闭推理功能时仅消耗50瓦时来响应提示,开启后则需7,626瓦时,能耗差异巨大[3] - 微软的Phi 4推理模型开启推理功能时消耗9,462瓦时,关闭时约为18瓦时[8] - OpenAI最大的gpt-oss模型在计算最密集的“高”设置下开启推理消耗8,504瓦时,在“低”设置下消耗5,313瓦时[8] AI能耗激增的宏观影响 - AI的能源需求飙升已受到越来越多的审视,科技公司竞相建设更多更大的数据中心以支持AI,引发了对电网压力和消费者能源成本上升的担忧[4] - 彭博社9月的一项调查发现,在过去五年中,数据中心附近地区的批发电价上涨了高达267%[4] - 微软、谷歌和亚马逊此前已承认,数据中心的建设可能使其长期气候目标复杂化[4] 行业关注点转移与内部观点 - 关于AI功耗的讨论多集中在用于训练AI系统的大型设施上,但科技公司正将更多资源转向推理,即AI系统训练后的运行过程[9] - 谷歌8月发布的内部研究估计,其Gemini AI服务处理单个文本提示的能耗中位数为0.24瓦时,并称该数字“远低于许多公开估计”[9] - 微软CEO萨提亚·纳德拉表示,行业必须为AI数据中心的使用获得“社会许可”,并利用AI行善和促进广泛经济增长[10] 研究背景与建议 - 该研究由Hugging Face研究科学家Sasha Luccioni和Salesforce Inc. AI可持续发展负责人Boris Gamazaychikov领导的AI Energy Score项目进行[2] - 研究旨在更好地理解AI能源需求的演变,并帮助人们认识到不同类型的AI模型适用于不同的任务,并非每个查询都需要调用计算最密集的AI推理系统[7] - 研究人员建议更智能地使用AI,为正确的任务选择合适的模型很重要[7]
The Rise of AI Reasoning Models Comes With a Big Energy Tradeoff
Insurance Journal· 2025-12-05 14:05
行业趋势:AI推理模型成为主流 - 几乎所有领先的AI开发商都在专注于构建模仿人类推理方式的AI模型[1] - 自OpenAI约一年前发布首个推理模型o1以来,许多其他AI公司也发布了类似系统,旨在解决科学、数学和编程等领域的复杂多步骤问题[5] - 推理系统已迅速成为执行更复杂任务的行业规范[6] 能源消耗研究:推理模型能耗激增 - 根据AI Energy Score项目的研究,AI推理模型平均需要消耗100倍以上的电力来响应1000个书面提示,相比之下,不具备或禁用此功能的替代模型能耗低得多[2] - 研究人员评估了40个开源、免费的AI模型,包括来自OpenAI、Alphabet旗下谷歌和微软的软件[3] - 能源消耗的差异很大,例如中国初创公司深度求索的R1模型精简版,在关闭推理功能时仅消耗50瓦时来响应提示,相当于运行一个50瓦灯泡一小时;而启用推理功能后,同一模型需要308,186瓦时来完成相同任务[3] - 微软的Phi 4推理模型在开启推理时消耗9,462瓦时,关闭时仅消耗约18瓦时[8] - OpenAI最大的gpt-oss模型在计算最密集的“高”设置下开启推理消耗8,504瓦时,在“低”设置下消耗5,313瓦时[8] 能源影响:对电网与成本的担忧 - AI的能源需求飙升已受到越来越多的审视,科技公司竞相建设更多更大的数据中心以支持AI,引发了行业观察者对电网压力和消费者能源成本上升的担忧[4] - 彭博社9月的一项调查发现,在过去五年中,数据中心附近地区的批发电价上涨了高达267%[4] - 微软、谷歌和亚马逊此前已承认,数据中心的建设可能使其长期气候目标复杂化[4] 行业动态:从训练转向推理 - 关于AI功耗的讨论大多集中在为训练人工智能系统而建立的大规模设施上[9] - 然而,科技公司正越来越多地将资源转向推理,即AI系统训练后的运行过程[9] - 向推理模型的推进是这一转变的重要组成部分,因为这些系统更依赖于推理过程[9] 公司行动与观点 - 谷歌在8月发布的内部研究估计,其Gemini AI服务的单次文本提示中位能耗为0.24瓦时,大致相当于看电视不到九秒,该公司称该数字“远低于许多公开估计”[9] - 微软CEO萨提亚·纳德拉在11月的一次采访中表示,行业必须为AI数据中心赢得“消耗能源的社会许可”,为此科技必须利用AI行善并促进广泛的经济增长[10] - OpenAI、微软、谷歌和深度求索未立即回应置评请求[8] 研究启示与建议 - 该新报告旨在更好地理解AI能源需求如何演变[7] - 研究有助于人们更好地理解存在适用于不同操作的不同类型的AI模型,并非每个查询都需要动用计算最密集的AI推理系统[7] - 研究人员建议应更明智地使用AI,为正确的任务选择合适的模型很重要[7] - 功耗增加的主要原因在于推理模型在响应时会生成更多的文本[6]
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
量子位· 2025-10-20 11:46
模型演进与定位 - GPT-5可被视为o3模型的迭代版本,即o3.1,其思考过程与o3一脉相承[1][4][23] - o1模型是公司第一个正式的推理模型,更侧重于技术演示,擅长解决谜题而非作为实用产品[15][17][18] - o3模型代表了AI发展的结构性转变,是首个真正实用、能熟练使用工具并持久寻求答案的模型[19][20][22] - 公司未来的方向是构建能力更强、思考时间更长、能自主与多系统互动的模型,寻求下一个重大飞跃[4][24] 模型推理过程 - 模型的推理过程类似于人类思考,是寻找未知答案的过程,可能涉及计算、查找信息或自我学习[11] - 思维链是模型推理的具体表现,通过将模型的思维过程用人类语言口语化表述出来[12] - 模型在推理中花费的时间越长,结果往往会更好,但公司需在推理质量与用户等待时间之间寻求平衡[13][14] - 公司目前将高推理模型与低推理模型同时开放给用户,并将思考时长的选择权交还用户[14] 公司内部架构与文化 - 公司工作结构是自上而下与自下而上结合,整体专注于三到四个核心项目,研究人员在项目内享有自由[31][33] - 研究部门约600人,信息高度透明,公司认为研究受阻的风险远高于知识产权泄漏[33] - 公司能快速发布产品(一年内从o1到GPT-5)得益于良好的运营结构、巨大的发展势头及顶尖人才的高效产出[33] - 员工大量使用内部工具,例如ChatGPT和CodeX,有员工每月为ChatGPT支付200美元费用[9][34] 强化学习(RL)的战略意义 - 强化学习是公司多次转折的关键,语言模型是预训练和强化学习的结合,此为自2019年以来的研究核心[35][36] - 强化学习通过奖励和惩罚机制训练模型,关键在于策略(模型行为)和环境(交互式反馈)[37][38] - GPT-4最初在长回答中缺乏连贯性,是通过基于人类反馈的强化学习(RLHF)解决了该问题,从而创造了“ChatGPT时刻”[41][42][43] - 公司近期在编程竞赛中的优异表现,源于长期使用编程谜题作为测试平台来尝试强化学习想法[45][46] - 强化学习可应用于任何能评估结果并计算反馈信号的领域,但其规模化难度较高,过程精细复杂[47][48][49] 行业影响与外部贡献 - DeepSeek团队提出的GRPO(组相对策略优化)算法获得肯定,其开源推动了美国实验室更快地训练推理模型[7][51] 未来方向与AGI路径 - AI智能体化是大势所趋,由基础推理驱动的智能体允许模型长时间独立思考以解决编程、预订等复杂任务[53] - 模型对齐问题本质上是一个强化学习问题,旨在引导模型行为符合人类价值观,且该问题将随文明演进永无止境[54] - 通往AGI的道路上,预训练和强化学习二者缺一不可,公司反对“纯强化学习是唯一途径”的观点[56][57] - 公司相信目前走在正确的AGI道路上,未来的变化将是添加新的复杂组件,而非完全推翻现有架构[59]
GPT-5 核心成员详解 RL:Pre-training 只有和 RL 结合才能走向 AGI
海外独角兽· 2025-10-18 20:03
文章核心观点 - 强化学习与预训练的结合是当前AI发展的核心路径,两者相互依存,共同推动模型能力的提升[16][50] - 推理能力是AI发展的关键里程碑,其本质是模型寻找未知答案的思考过程,而不仅仅是简单的搜索[7][9] - 公司通过持续迭代其模型架构和训练方法,实现了从技术展示到实用产品的跨越,并确立了在行业中的领先地位[13][15][62] 强化学习与预训练的结合 - 预训练是基础,为强化学习提供必要的知识基础,没有预训练,强化学习难以奏效[16][22] - 强化学习必须建立在强大的预训练之上,而预训练同样需要强化学习的强化与闭环才能成功[3][50] - 公司自2019年就确立了“在大量数据上训练大型生成模型,然后进行强化学习”的战略路线,并延续至今[17] - 强化学习被比喻为训练狗的过程,通过奖励期望行为和惩罚不期望行为来优化模型策略[19][20] - 与相对标准化的预训练相比,强化学习更为复杂和精细,涉及更多动态组件,大规模扩展时挑战更大[33] 推理模型的技术演进 - 推理被定义为“找到一个未知答案的过程”,这比简单的“回答问题”需要更长的时间和更复杂的工作[7][9] - 思维链是模型将内部思考过程以人类语言和概念表达出来的能力,本质上是文字编码的思考过程[10][11] - 公司在推理模型的开发上遵循逐步扩展的训练实验路径,从展示能力的o1模型,到真正有用的o3模型,再到被视为o3迭代的GPT-5模型[13][15] - 模型思考时间的权衡由用户体验驱动,公司在产品层面提供不同模式让用户在输出质量和等待时间之间进行选择[12] - 编程能力是推理模型能力的一个自然副产品,研究人员常用编程问题测试新想法,使模型在该领域表现突出[43] 行业竞争与开源影响 - 公司在发布o1模型后,对许多研究实验室产生了意外冲击,而开源模型如DeepSeek的GRPO算法为其他实验室提供了快速跟进的操作说明书[30][32] - 数据标注行业必须不断自我更新,因为AI能力快速提升,几个月前需要人工标注的任务可能很快就能由AI自动完成[27] - 行业内的研究组织方式趋向于集中资源推进少数核心项目,而非进行大量分散的小赌注,以确保研究深度和效率[60] 智能体与未来发展方向 - 智能体系统的核心是让模型能够长时间自主思考,与更多系统和信息源交互,以完成复杂的长任务清单[34][35] - 目前大多数针对语言模型的强化学习仍是在线训练,但在与真实用户隔离的环境中进行,实时在线学习因安全考虑尚未大规模应用[36][38] - 对齐问题在某种程度上被视为一个强化学习问题,需要通过引导模型产生特定行为来实现,但这是一个持续演变的挑战[38][39] - 通向AGI的终极问题在于模型何时能在不依赖大量外部干预和人类修正的情况下实现自我改进[47] - 未来的发展路径更可能是在现有体系上持续叠加新方法,逐步淘汰旧元素,而非彻底推翻重来的转向[52]
当着白宫AI主管的面,硅谷百亿投资人“倒戈”中国模型
环球时报· 2025-10-15 11:24
行业格局转变 - 全球AI行业格局正从美国主导的不计成本追求极限参数的上半场,转向由性价比、商业效率和生态价值主导的新阶段[3] - 中国AI的地位从过去的追赶者提升为与美国并驾齐驱的竞争者,两者形成两种价值机制在同一舞台上并行的比拼[5][7] - 制胜关键不再仅体现为参数更多、模型更大,更在于能以更低的成本、更快的速度稳定服务用户[7] 中国AI模型表现 - 以DeepSeek、Kimi和Qwen为代表的中国开源模型矩阵,在多项关键性能指标上实现了对Meta的Llama系列的全面反超[5] - Kimi K2版本K2-0905在全球知名AI编程评测平台Roo Code上获得超过94%的评分,成为首个在该平台突破90%评分的开源模型[4] - Kimi K2在全球公认的LMSys Chatbot Arena上登顶开源第一,被誉为全网领先的开源文本模型[7] - DeepSeek在复杂的推理任务上超越了OpenAI的o1-preview版本,并成功将高端技术推向商业场景[7] 市场应用与生态突破 - 中国模型在Anthropic限制API服务后迅速填补市场空白,在高价值领域抢占用户市场[3][4] - 硅谷知名投资人查马斯将其公司的大量工作需求从亚马逊旗下AI平台转向中国模型Kimi K2,理由是性能强且比OpenAI和Anthropic便宜太多[1][3] - Cursor、Perplexity、Vercel等全球知名开发平台及应用相继宣布接入中国模型[4] - 中国在开源能力、成本效率与生态落地上实现弯道超车,展现出巨大的市场应用潜力[4][7]
深度|硅谷百亿大佬弃用美国AI,带头“倒戈”中国模型
搜狐财经· 2025-10-13 15:06
文章核心观点 - 硅谷顶级投资人查马斯·帕里哈皮蒂亚公开表示其公司已将大量AI工作负载从亚马逊Bedrock等平台转向中国模型Kimi K2,理由是性能强且成本远低于OpenAI和Anthropic [1] - 这一选择被视为一个强烈的市场领先指标,标志着全球AI应用进入由商业理性主导的新阶段,模型的品牌和参数不再是唯一标准 [4] - 查马斯的选择正演变为群体趋势,多家在美国开发者生态中举足轻重的平台和工具已悄然集成Kimi,使其从一个被关注的外部模型转变为具备实际生产价值的工具 [4][5] - 2025年9月Anthropic的API服务政策调整形成了一个市场真空,月之暗面迅速反应并发布聚焦代码能力的K2-0905版本,在全球AI编程评测平台Roo Code上取得超过94%的评分 [7][8] - 《State of AI Report 2025》首次将中国AI体系提升为“平行竞争者”,指出中国在开源AI和商业化部署方面设定节奏,全球AI最高研究殿堂中,中国模型已占据三分之二席位 [12][13] - 全球AI格局正形成双极化:美国坚持“技术攻顶”范式,中国则发展出“应用共荣”范式,Kimi聚焦AI编程高价值赛道的成功是后一种范式的落地实践 [17][18] - 中国AI产业在2025年完成了从“技术破局”到“生态突围”的转变,开始在一个双极化的全球格局中自信地探索并引领自身发展范式 [19] 关键事件与市场反应 - 查马斯·帕里哈皮蒂亚是身价估算超过百亿美金的硅谷传奇投资人,其职业成就包括将Facebook用户数从4500万做到7亿,并早期精准投资多家百亿美金市值的明星公司 [3] - 集成Kimi K2的美国重要平台包括:估值93亿美元的云端开发平台Vercel、AI原生代码编辑器明星产品Cursor、以及AI原生应用Perplexity、Genspark、Youware [5] - Anthropic于2025年9月5日宣布调整API服务政策,限制了部分地区对Claude模型的访问,瞬间在AI编程领域形成市场真空 [7] - 月之暗面在Anthropic政策调整同一天发布K2-0905版本,将代码和智能体能力作为更新核心,并在Roo Code平台成为首个评分突破90%的开源模型 [7] 行业报告与格局分析 - 《State of AI Report 2025》由知名AI投资人内森·贝纳克和Air Street Capital联合发布,被公认为全球AI行业的年度风向标 [12] - 报告指出,以DeepSeek、Kimi、Qwen为代表的中国模型矩阵在多项关键性能指标上实现对Meta Llama系列的反超 [12] - 报告在“Research”部分仅列出三个代表性大语言模型:OpenAI的o1、中国的DeepSeek-v3系列和Kimi-K2系列,中国模型占据三分之二席位 [13] - DeepSeek在复杂推理任务上超越o1-preview,并在代码智能体和多模态智能体等高价值领域展现巨大应用潜力 [21] - Kimi K2被誉为“全网最强的开源文本模型”,在全球公认的LMSys Chatbot Arena上登顶开源第一 [21] - 美国“技术攻顶”范式以OpenAI、Anthropic、Google DeepMind为代表,核心是学术和研究实验室,目标为冲击AGI [17] - 中国“应用共荣”范式以字节跳动、百度、月之暗面、深度求索等公司为代表,通过高性价比、快速迭代的开源模型赋能开发者和企业,构建繁荣应用生态 [17] - Kimi的战略选择聚焦AI编程这一高价值企业级赛道,提供性能、成本与可靠性的最佳结合,是“应用共荣”范式的实践 [18]
关于 AI Infra 的一切 | 42章经
42章经· 2025-08-10 22:04
AI Infra的定义与架构 - AI Infra包括硬件和软件两部分 硬件指AI芯片 GPU 交换机等设备 软件层面类比云计算分为三层 [3][4] - 最底层类似IaaS 解决基础计算 通信和存储问题 中间层类似PaaS 包含资源调度 资源管理等平台 MaaS归属这一层 [4][5] - 最上层近似SaaS应用层 但在AI Infra领域更倾向于理解为训练及推理框架的优化层 [5] AI Infra的发展历程 - 第一批AI Infra人如贾扬清 李沐 陈天奇等有算法背景 他们为充分利用GPU而开发AI Infra [6] - 第二批AI Infra人主要推动AI Infra在工业界的规模化应用 [6] - 大模型兴起使AI Infra进入主舞台 类似搜索引擎兴起时的机会窗口 可能十年二十年才出现一次 [7][9][10] AI Infra与传统Infra的差异 - AI Infra绝对核心是GPU 传统Infra核心是CPU [11] - AI Infra需要更极致 更贴合AI特殊需求 太阳底下没有太多新鲜事但要做到更极致 [12] - Infra人才相比算法更强调积累 算法依赖年轻人而Infra需要长期经验 [14] AI Infra的核心指标与价值 - 线上服务侧关注首字延迟 吐字稳定性 整体成本 训练侧关注每张GPU处理数据量和训练效率 [15] - 优化Infra可显著降低成本 例如1万张GPU每月租金1亿 利用率提升10%可节省1000万 [18][19] - 小公司可通过对比云厂商方案决定是否自建Infra 云服务商价值在于帮助小公司节省优化成本 [20][21] AI Infra的商业模式 - 第三方公司短期价值在于提供API集贸市场 让客户自由选择不同API [22] - 长期来看 第三方需与硬件或模型垂直整合才能建立壁垒 避免被云厂商或模型公司取代 [24][25] - MaaS服务商可通过与硬件厂商深度合作获得差异化优势 类似游戏机独占游戏 [26][27][28] AI Infra与模型效果 - Infra水平影响模型效果 优化更好的Infra可在相同算力下多学20%数据 提升模型效果 [36][37] - MFU是常见指标但单一指标难判断优劣 DeepSeek的MFU偏低但Infra并不差 [37][38] - DeepSeek成功关键在于选对优化目标 即给定推理成本训出最好模型 而非传统训练算力优化 [39][40][41] AI Infra的未来趋势 - 当前最重要指标是decoding速度 直接影响线上业务成本和强化学习效率 [44] - 多模态仍有突破可能性 需实现理解和生成的统一 类似GPT-3.5让专用模型退休 [63][64] - 开源模型促进AI Infra发展但也可能阻碍创新 如过度优化Llama影响新范式探索 [69] AI Infra的组织架构 - 理想协作是Infra 算法 数据团队共同决策 大厂中Infra常被视为支持角色缺乏影响力 [46][47][49] - 合理架构应是Infra人设计模型结构 数据人负责刷分 算法人主攻训练范式革新 [54] - 大厂人才结构错配 如DeepSeek Infra工程师多于算法工程师 而多数大厂相反 [81][82] AI Infra的创业机会 - 训练侧商业模式难成立 因训练方不愿泄露核心竞争力 推理侧如加速优化仍有机会 [67][68] - 国产芯片需专门设计模型结构提升性价比 Step 3开源模型支持国产卡商用并达到SOTA [69][73][74] - 多模态成本有望大幅下降 理解已不贵但生成仍贵 视频生成一年后可能降至几分之一 [75][76][77]