OpenAI Codex
搜索文档
OpenAI Codex桌面版深夜突袭,一人指挥Agent军团,程序员彻底告别996
36氪· 2026-02-03 15:54
OpenAI发布Codex桌面应用:AI编程进入多智能体指挥时代 - OpenAI正式发布独立的Codex桌面应用,标志着AI编程从“对话助手”进化为“指挥中心”,旨在重塑开发者与代码的交互逻辑 [1][8][10] - 该应用定位为AI智能体的“指挥中心”,允许开发者指挥多个AI智能体并行工作,贯穿软件设计、构建、发布和维护的全生命周期 [4][13][15] - 自2025年4月发布Codex以来,开发者与AI的协作方式已发生根本转变,现有模型可端到端处理复杂长流程任务 [15] 核心功能:多智能体并行与任务管理 - Codex应用为多AI智能体并行工作构建了专注空间,AI在按项目组织的独立线程中运行,确保用户可无缝切换任务而不丢失上下文 [16] - 应用内置对Git worktree的支持,允许多个AI在同一个代码仓库上同时开工且互不冲突,每个AI在代码的隔离副本上工作 [16] - 应用可自动从Codex CLI和IDE扩展中同步会话历史和配置,便于用户在现有项目中立即使用 [19] 核心功能:Skills(技能)系统扩展AI能力边界 - Codex通过Skills系统从代码生成AI进化为能用代码在电脑上实际解决问题的AI,Skills是打包好的指令、资源和脚本 [20] - Skills让Codex能可靠连接工具、运行工作流,并按照团队习惯完成任务,能力扩展至信息收集整合、问题解决、写作等非纯代码生成任务 [20] - 应用提供专门界面创建和管理Skills,用户可明确要求Codex使用特定Skill或让其根据任务自动调用 [20] - OpenAI在GitHub开源了Skills库,该仓库已获得2.4k星标和153个分支,涵盖内部流行的工具和工作流 [34] 核心功能:自动化与个性化 - Codex可设置Automations(自动化),按计划在后台自动执行任务,将指令与可选Skills结合,结果会进入审查队列 [35] - OpenAI内部团队使用Automations处理每日Issue分类、总结CI失败原因、生成发布简报等重复性重要任务 [37] - Codex允许开发者在两种AI个性间切换:简洁务实风格与更具对话感和同理心的风格,两者能力相同 [39] 性能展示与用例 - OpenAI演示了Codex仅凭一个用户提示词,独立消耗超过700万个Token,制作出一款功能完整的3D体素卡丁车赛车游戏 [6][20] - 游戏开发过程展示了Codex从粗糙原型(消耗6万Token)到可玩版本(消耗80万Token),最终到精致版本(消耗700万Token)的迭代能力 [21][22][23][24] - Codex内置Skills库包含多个实用技能,如:从Figma设计生成生产级UI代码、使用Linear管理项目、将Web应用部署到主流云平台、使用GPT Image生成图像等 [26][27][28][29] 安全设计与采用数据 - Codex应用采用原生、开源且可配置的系统级沙箱,默认情况下AI智能体只能编辑当前工作文件夹的文件并使用缓存的网页搜索 [41] - 如需更高权限命令(如联网访问),Codex会先请求用户许可,用户可为项目或团队配置规则允许特定命令自动以提升权限运行 [41] - 自12月中旬发布GPT-5.2-Codex以来,Codex总使用量翻了一番,过去一个月内有超过100万开发者使用Codex [42] 发布计划与未来路线图 - Codex桌面应用目前已在macOS上线,Windows版本即将推出 [12] - OpenAI提供“限时福利”,ChatGPT免费用户和Go版本也可使用Codex,而Plus、Pro、Business、Enterprise和Edu计划用户速率直接翻倍 [12] - 团队未来计划包括:上线Windows版应用、持续突破模型能力边界、实现更快的推理速度,以及为Automations开发基于云端的触发器支持 [42][43]
2026年1月的李想对AI进步速度的预期与Anthropic的CEO类似
理想TOP2· 2026-02-01 19:30
文章核心观点 - 理想汽车创始人李想对人工智能进步速度的预期,与AI领域核心领袖、Anthropic公司首席执行官Dario Amodei的观点高度相似,两者均认为“强大AI”或“具身智能”可能在1-2年内取得超预期的巨大进展 [1][2][4][10] - 这一预期并非空谈,已直接影响理想汽车公司的战略资源投入方向与实际执行,其重心已完全转向“具身智能”领域,并认为人形机器人是必须立刻启动、否则将错过最后上车机会的赛道 [1][2][5] - Anthropic公司及其CEO Dario Amodei的观点具备极高的参考价值,这主要基于Anthropic近期的商业成就、技术突破(如Claude Code)以及Dario本人在AI治理方面的前瞻性判断 [1][11][21] 李想对AI与机器人发展的预期 - **对AI进步速度的预期**:李想认为当前人形机器人遇到的难题,非常类似于2025年2月7日Manus/Genspark所讲的通用智能体(Agent)所面临的难度,机器人迭代速度可能比软件稍慢,但进展幅度和变化程度将比所有人想象的更快 [1][4] - **对机器人赛道的紧迫性判断**:李想认为“做家政的人形机器人必须立刻启动,再不启动就会错过第一波最后的上车机会”,公司已推动相关团队从水下浮出水面,并开始招聘最好的人才 [5] - **对AI工具的评价与内部推广**:李想明确认为GitHub Copilot是上一个时代的产物,今天已变得毫无意义,转而盛赞并强推公司内部使用Claude Code,尤其是Sonnet 4.5版本之后的Claude Code [15] Dario Amodei的观点与Anthropic的成就 - **对“强大AI”的预期**:Dario Amodei在其署名文章《技术的青春期》中指出,强大的人工智能可能最快在1-2年内到来,尽管也可能显著更久 [1][7] - **“强大AI”的能力锚点**:这种AI将在大多数领域(如生物学、编程、数学、工程、写作)比诺贝尔奖得主更聪明,能够被赋予需数周才能完成的任务并自主执行,其吸收信息和生成动作的速度大约是人类的10-100倍,可被部署数百万个实例协同工作,被概括为“数据中心里的天才国度” [8][9] - **Anthropic的商业成功**:Anthropic整体年化营收从2025年初约10亿美元跃升至2025年8月的50亿美元(八个月内增长5倍),并预计到2025年底将达到90亿美元 [13] - **Claude Code的技术突破与市场反响**: - Claude Code正从AI编程助手演变为开发者保持竞争力所必需的全新基础架构,其采用终端原生、拥有完整文件系统和命令行访问权限的架构,使其能作为真正的智能体(Agent)持久化工作,改变了开发者与AI的根本关系 [12][15][16] - 在2026年1月,Claude Code在VS Code的AI编程助手每日安装量已快速超过OpenAI Codex [20] - Claude的用户群体具有显著行业特征:软件公司占比达23.3%,是仅用ChatGPT公司比例(10.1%)的2.3倍;在金融服务、保险、医疗保健等受监管行业也占据超额比例 [17][19] - **Dario Amodei的前瞻性佐证**:早在2020年,Dario就曾试图说服OpenAI董事会解除Sam Altman的CEO职务,比Ilya Sutskever在2023年的行动早三年,这源于其对AGI发展路线(治理优先 vs 能力优先)的深刻分歧 [21] Claude Code的技术细节与行业影响 - **核心架构优势**:采用命令行界面(CLI)与工程师实际工作方式一致,能直接读写文件、执行bash命令、跨会话维护状态,并能协调跨越数天的多步骤流程,解决了传统编程助手(如Copilot)无状态、上下文有限的难题 [15][16] - **能力边界**:不仅能调用现有工具,还能在没有工具时自己编写工具,甚至直接调用操作系统权限来解决问题,被李想评价为“一个更高的数字文明给其配了完整的工程师团队与数字世界的所有工具” [15][17] - **行业采用案例**:已成为开发者面对最棘手问题时的首选工具,一位Google首席工程师公开承认Claude在一小时内重现了一年的架构工作;即使在微软内部,各大主要工程团队也已广泛采用 [14][15]
2026 年的 Coding 时刻是 Excel
36氪· 2026-01-27 09:30
文章核心观点 - AI在Coding领域的成功已验证了一种由庞大市场规模、自然场景延展能力和产品驱动型GTM模式构成的爆发路径,而Excel具备相同特质且市场规模更大,有望成为下一个迎来爆发的高价值AI垂直领域[1][2] - AI驱动的变革可能从Excel等单一工具扩散至整个Office体系乃至更广泛的企业软件交互方式,最终改变人与软件协作的基本范式[3][4] Coding行业概览 - **GTM模式**:Coding工具的采用主要依靠开发者自下而上的自助式传播,开发者能快速识别优秀工具并拥有采购影响力,使得优秀产品几乎无需投入大量销售和市场资源即可快速推广[5][6][7][8] - **市场规模**:Coding行业公认的总潜在市场规模约为2万亿美元,其中美国、欧洲和其他地区的开发者数量分别为600万、700万和1600万,对应潜在市场分别为9000亿美元、4900亿美元和5600亿美元[10][11] - **市场现状与战略**:已有4家公司年经常性收入超过10亿美元,至少7家公司ARR突破1亿美元[12] - GitHub Copilot预计2026年初ARR超22亿美元,战略是通过Microsoft生态系统实现企业主导[13] - OpenAI Codex预计ARR超10亿美元,战略是成为专用的Agent-native平台[13] - Claude Code预计ARR达11亿美元,仅用6个月达到10亿美元ARR,被视为Agent的先进“推理大脑”[13] - Cursor预计ARR超10亿美元,是最受欢迎的“心流状态”与Agentic多文件编辑工具[13] - Replit ARR为2.53亿美元,在vibe coding领域领先[13] - Lovable ARR为2亿美元,在生成式UI和“创始人无代码”领域高速增长[13] - **行业地位**:Coding不仅是一个终端市场,更是一个切入入口,掌控开发者工作流能对构建其上的所有应用形成杠杆效应[11] Excel与AI结合的潜力分析 - **相似模式**:Excel与Coding相似,具备庞大的TAM、通向大量相邻场景的入口以及可自助式采用的GTM模式[17] - **市场规模**:全球电子表格的月活跃用户规模估计为15–16亿,Excel实际覆盖的用户基础更大,是一个拥有约30亿用户的庞大市场[1][18][22] - Google Workspace拥有超过30亿用户信任和超过1100万付费客户(2025年)[18] - WPS Office全球月活跃设备数达6.32亿(2024年12月),累计付费订阅用户达4170万[19][20] - Microsoft Office历史上有约12亿用户[20] - **市场外延**:软件行业规模约1万亿美元,其中应用软件约占50%,相当一部分本质上是“Excel wrappers”(如Airtable, Smartsheet, CRM等)[23] - 如果AI-native的Excel变得可编程,其市场机会将远超Office产品本身,从电子表格使用扩展至应用程序创建[23] - **GTM与切入点**:金融行业是AI切入Excel的天然起点,原因包括金融从业者人均利润高、付费意愿强、拥有预算审批权以及清晰的ROI[24] - 美国金融服务和保险从业者超过670万人,全球财务职能人员约1.5亿人,占全球电子表格月活用户(约15.5亿)的约10%,构成规模大且高度可变现的初始入口[24] 行业趋势与竞争动态 - **企业布局**:OpenAI和Anthropic都在积极进军电子表格和生产力工作流领域[2] - **产品案例**:Claude Code推出的Excel功能被视为有意识地切入一个长期存在但尚未被AI系统性重构的核心生产力领域[22] - **发展路径**:Coding已证明一个自助式、深度嵌入工作流且作用面广的工具扩张速度可以超过几乎所有其他软件品类,Excel可能是这一打法的下一个版本,且规模更大[24]
腾讯研究院AI速递 20260126
腾讯研究院· 2026-01-26 00:01
OpenAI Codex技术进展 - OpenAI预告下周起将发布Codex相关重磅内容,并发布技术博客揭秘其CLI核心架构——智能体循环 [1] - 智能体循环通过Responses API协调用户指令、模型推理与本地工具执行,采用“提示词前缀一致”策略触发缓存以优化性能 [1] - Codex支持零数据保留配置以保障隐私,并利用自动压缩技术管理上下文窗口 [1] 谷歌DeepMind动态4D重建技术突破 - 谷歌DeepMind发布D4RT,将3D重建、相机追踪、动态物体捕捉统一成“查询”动作,速度比现有SOTA快18至300倍 [2] - 核心技术是统一的时空查询接口,AI先全局“阅读”视频生成场景表征,再按需搜索任意像素的3D轨迹、深度和位姿 [2] - 该技术对具身智能、自动驾驶和AR意义重大,但训练仍需10亿参数模型和64个TPU [2] Claude产品功能升级 - Claude Code将内部“Todos”升级为“Tasks”,支持多会话或子代理协作完成跨越多个上下文窗口的长期复杂项目 [2] - Tasks存储在文件系统中便于多个会话协同,当一个会话更新Task时会广播给所有处理同一任务列表的会话 [2] - Anthropic推出Claude in Excel插件,支持Pro、Max、Team、Enterprise用户,基于Opus 4.5模型,能联网搜索并自动填充表格,支持读取公式、Debug错误、从零建模、制作透视表等功能 [6] 百度文心大模型发布 - 百度文心5.0正式版上线,参数量达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频的理解与生成 [3] - 在LMArena文本和视觉理解榜单五次登顶,进入全球第一梯队,语言与多模态理解能力稳居国际领先 [3] - 实测显示模型在复杂情感理解、弦外之音分析、创意写作等文科任务表现突出 [3] AI智能体与开源项目动态 - 开源项目Clawdbot在硅谷爆火,可在Mac mini上运行,兼具本地AI智能体和聊天网关双重身份,通过WhatsApp、iMessage等随时对话 [4] - Clawdbot解决了大模型记忆力痛点,能记住两周前的对话,还会主动推送邮件、日程提醒,并可直接操控电脑执行任务 [4] - 项目GitHub获9.2k星,最低月成本约25美元,用户反馈它能自动管理生意、写代码替代Zapier等付费服务 [4] AI研究新范式与行业观点 - 图灵奖得主LeCun创立的AMI Labs官宣核心方向为“世界模型”,旨在构建理解现实世界、具备持久记忆和推理规划能力的智能系统 [5] - 该路线认为仅靠预测下一个token无法真正理解现实,需在更高层次表征空间进行预测与推理,过滤不可预测的噪声信息 [5] - 谷歌云AI总监Addy Osmani警告“氛围编程”已撞南墙,AI能完成70%前期工作但剩余30%只有经验丰富的工程师能搞定,2026年真正核心竞争力是把模糊问题转化为明确执行意图、设计好上下文结构 [7] 科技巨头对AI发展的预测 - 马斯克预测2026年底前AI将超越人类智慧,到2030年AI将比全人类集体智慧更聪明,特斯拉明年底将开售人形机器人Optimus [8] - 微软CEO纳德拉警告若AI只消耗资源不改善结果社会会失去容忍,黄仁勋称具身智能是“一代人一次的机会” [9] - DeepMind CEO哈萨比斯认为AGI还需5-10年,Anthropic CEO达里奥称只差6-12个月模型就能端到端完成软件开发 [9]
吴恩达年终总结:2025年或将被铭记为「AI工业时代的黎明」
华尔街见闻· 2025-12-31 11:10
行业核心观点 - 2025年或将被铭记为AI工业时代的黎明 模型性能通过推理能力达到新高度 基础设施建设成为推动美国GDP增长的关键力量 顶尖科技公司为争夺人才展开前所未有的薪酬战 [1] - 随着技术更紧密地融入日常生活 新的一年将进一步巩固这些变革 [2] 基础设施建设与资本开支 - 以OpenAI 微软 亚马逊 Meta和Alphabet为首的科技巨头宣布了令人咋舌的基础设施投资计划 每一吉瓦数据中心容量建设成本约为500亿美元 [3] - OpenAI与其合作伙伴宣布耗资5000亿美元的"Stargate"项目 并计划最终在全球建设20吉瓦的容量 [3] - 微软在2025年的全球数据中心支出达到800亿美元 并签署一项为期20年的协议 计划于2028年重启宾夕法尼亚州的三里岛核反应堆以确保持续电力供应 [3] - 贝恩公司估计 要支撑这种规模的建设 到2030年AI年收入需达到2万亿美元 这超过了主要科技巨头2024年的总盈利 [3] - 电网容量不足已导致硅谷部分数据中心闲置 [3] - 出于对债务水平的担忧 Blue Owl Capital于12月中旬退出了为Oracle和OpenAI提供100亿美元数据中心融资的谈判 [3] 人才市场竞争与薪酬 - 随着AI从学术兴趣转变为革命性技术 顶尖人才身价已飙升至职业体育明星水平 [4] - Meta在2025年打破传统薪酬结构 向来自OpenAI 谷歌和Anthropic的研究人员提供包括现金奖金和巨额股权在内的薪酬包 部分四年期合同价值高达3亿美元 [4] - 扎克伯格亲自参与人才争夺战 成功招募了OpenAI的Jason Wei和Hyung Won Chung等关键研究人员 此前与Mira Murati共同创立Thinking Machines Lab的Andrew Tulloch最终也加入了Meta [4] - 作为回应 OpenAI为新员工提供了更激进的股票期权归属时间表和高达150万美元的留任奖金 [5] 技术进展与推理模型应用 - 2025年被视为推理模型广泛应用的元年 OpenAI的o1模型和随后的DeepSeek-R1展示了通过强化学习微调模型以进行"思维链"推理的能力 显著提高了在数学 科学和编程任务中的表现 [6] - OpenAI o4-mini在结合工具使用后 在一项多模态理解测试中达到了17.7%的准确率 [7] - 技术进步直接推动了"智能体编码"的爆发 到2025年底 Claude Code 谷歌 Gemini CLI和OpenAI Codex等工具已能通过智能体工作流处理复杂的软件开发任务 [7] - 在SWE-Bench基准测试中 基于最新大模型的编码智能体能够完成超过80%的任务 [8] - 虽然苹果和Anthropic的研究指出推理模型在某些复杂逻辑上仍存在局限性 且推理过程增加了推理成本 但这并未阻挡企业利用AI自动生成代码 降低开发成本的趋势 [8]
吴恩达年终总结:2025是AI工业时代的黎明
具身智能之心· 2025-12-31 08:50
吴恩达2025年AI领域年度总结核心观点 - 2025年是AI工业时代的黎明,AI发展从算法竞赛演变为涉及人才、算力、基建和能源的工业革命[14][37] - 尽管AI基础设施和人才竞争变得空前“重”,但推理模型和编程智能体的成熟使得AI开发门槛降低,是软件开发的黄金时代[37] - 对于个人发展,建议通过系统学习课程、持续动手构建项目以及阅读研究论文来掌握构建AI系统的能力[7][15] AI技术发展趋势:推理模型与智能体 - 思考型(推理)模型成为主流,显著提升了模型在数学、编程及复杂问题解决上的性能[19][21] - OpenAI o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手第62百分位(GPT-4o为第11百分位)[24] - 结合工具(如计算器、搜索引擎)后,模型性能进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比无工具时高出3个多百分点[24] - 机器人动作模型通过强化学习(RL)学会推理后,在任务上的表现比不具备思考能力的模型(如OpenVLA)提升约8%[24] - 编程智能体能力飞速进步,2024年Devin将SWE-Bench基准最高水平从1.96%提升至13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务[31] - 2025年底,Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型[40] AI行业人才竞争与薪酬 - 领先AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬,从竞争对手处挖走顶尖人才[23] - Meta为新成立的Meta Superintelligence Labs组建团队,向来自OpenAI、Google、Anthropic等公司的研究人员开出高达数亿美元的待遇[23] - 据《华尔街日报》报道,Meta为招募Andrew Tulloch(OpenAI前CTO Mira Murati的联合创始人)提供了价值15亿美元的奖金方案[28] - Meta聘请曾主管Apple AI模型的Ruoming Pang,其薪酬方案在数年内累计高达数亿美元,超过了Apple除CEO之外最高层管理者的薪酬[28] - OpenAI为抵御挖角,提供了更高比例的股票薪酬,加快期权归属进度,并发放高达150万美元的留任奖金[27] - Elon Musk的xAI从Meta挖走十多名AI研究人员和工程师[28] - Microsoft AI CEO Mustafa Suleyman从Google带走了20多名研究人员和工程师[28] AI基础设施与资本支出 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心[27] - 头部AI公司宣布庞大的建设计划,预计未来几年将豪掷数万亿美元,消耗数吉瓦(GW)电力[27] - 据麦肯锡预测,为满足预期的推理和训练需求,到2030年建设足够算力的成本可能高达5.2万亿美元[27] - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦数据中心产能,并预测需求是该数字的5倍[32] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量5吉瓦的数据中心[32] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心[32] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是在印第安纳州建设一个2.2吉瓦的数据中心[32] - **Alphabet(谷歌)**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心[32] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资[30] 编程智能体与开发工具竞争 - 编程成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一[31] - 智能体系统不断推高SWE-Bench等编程基准测试上限,催生了SWE-Bench Verified、LiveBench等一系列新基准[34] - 到2025年底,许多公司(如Microsoft、Google、Amazon和Anthropic)报告称自身越来越多的代码正由AI生成,并开始自动化资深级别的任务[34] - Anthropic推出Claude Code应用,确立了智能体编程系统的标准;OpenAI随即推出基于GPT-5系列构建的Codex应用[40] - 模型制造商与集成开发环境(IDE)开发者展开竞争,导致Anysphere (Cursor)和Cognition AI (Windsurf)等IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity[40] - 开放权重模型(如Z.ai的GLM-4.5、月之暗面的Kimi K2)成为热门选择,使自动编程类初创公司得以大幅削减成本[40] - 7月发布的Qwen3-Coder是一个4800亿参数模型,在超过5万亿Token的代码数据上训练,性能几近匹敌Claude Sonnet 4[40] 推理模型的效率与成本 - 推理能力提升性能的同时也增加了成本与延迟,给LLM推理服务商带来更大性能压力[22] - Gemini 3 Flash开启推理时运行Artificial Analysis的Intelligence Index基准消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[22] - 研究人员正努力提高效率,Claude Opus 4.5与GPT-5.1在高推理设置下取得相同Intelligence Index分数,但前者消耗4800万tokens,后者消耗8100万tokens[22]
吴恩达年终总结:2025年或将被铭记为“AI工业时代的黎明”
华尔街见闻· 2025-12-30 20:45
文章核心观点 - 2025年被视为AI工业时代的黎明 模型性能通过推理能力达到新高度 基础设施建设成为推动美国GDP增长的关键力量 顶尖科技公司为争夺人才展开前所未有的薪酬战 [1] - 随着技术更紧密地融入日常生活 新的一年将进一步巩固这些变革 [2] 万亿级资本开支与能源挑战 - 以OpenAI、微软、亚马逊、Meta和Alphabet为首的科技巨头宣布了巨额基础设施投资计划 每一吉瓦数据中心容量建设成本约为500亿美元 [3] - OpenAI与其合作伙伴宣布耗资5000亿美元的"Stargate"项目 并计划最终在全球建设20吉瓦的容量 [3] - 微软在2025年的全球数据中心支出达到800亿美元 并签署了一项为期20年的协议 计划于2028年重启宾夕法尼亚州的三里岛核反应堆以确保电力供应 [3] - 贝恩公司估计 要支撑这种规模的建设 到2030年AI年收入需达到2万亿美元 这超过了主要科技巨头2024年的总盈利 [3] - 电网容量不足已导致硅谷部分数据中心闲置 出于对债务水平的担忧 Blue Owl Capital于12月中旬退出了为Oracle和OpenAI提供100亿美元数据中心融资的谈判 [3] 天价薪酬重塑人才市场 - Meta在2025年打破了传统的薪酬结构 向来自OpenAI、谷歌和Anthropic的研究人员提供包括现金奖金和巨额股权在内的薪酬包 部分四年期合同价值高达3亿美元 [5] - 扎克伯格亲自参与人才争夺战 成功招募了OpenAI的Jason Wei和Hyung Won Chung等关键研究人员 此前与Mira Murati共同创立Thinking Machines Lab的Andrew Tulloch最终也加入了Meta [5] - 作为回应 OpenAI为新员工提供了更激进的股票期权归属时间表和高达150万美元的留任奖金 [6] - 随着AI从学术兴趣转变为革命性技术 顶尖人才的身价已飙升至职业体育明星的水平 [9] 推理模型与智能体编码的普及 - 2025年被视为推理模型广泛应用的元年 OpenAI的o1模型和随后的DeepSeek-R1展示了通过强化学习微调模型以进行"思维链"推理的能力 显著提高了在数学、科学和编程任务中的表现 [8] - 例如 OpenAI o4-mini在结合工具使用后 在一项多模态理解测试中达到了17.7%的准确率 [10] - 技术进步直接推动了"智能体编码"的爆发 到2025年底 Claude Code、谷歌 Gemini CLI和OpenAI Codex等工具已能通过智能体工作流处理复杂的软件开发任务 [10] - 在SWE-Bench基准测试中 基于最新大模型的编码智能体能够完成超过80%的任务 [11] - 虽然苹果和Anthropic的研究指出推理模型在某些复杂逻辑上仍存在局限性 且推理过程增加了推理成本 但这并未阻挡企业利用AI自动生成代码、降低开发成本的趋势 [11]
吴恩达年终总结:2025年或将被铭记为AI工业时代的黎明
华尔街见闻· 2025-12-30 18:27
AI工业时代的开启 - 2025年标志着AI从“学术探索”正式迈向“工业化基础设施”时代,创新将模型性能推向新高度,AI驱动的应用变得不可或缺 [1][10] - AI投资成为驱动美国GDP增长的核心力量,2025年上半年数据中心和AI投资几乎占美国国内生产总值增长的全部 [1][20] - 全球年度资本支出突破3000亿美元,其中大部分用于建设新的数据中心来处理AI任务 [1][17] 万亿级基础设施投资与能源挑战 - 科技巨头开启大规模数据中心计划,单项投资动辄数千亿美元,例如OpenAI与合作伙伴宣布耗资5000亿美元的“Stargate”项目,并计划最终在全球建设20吉瓦的容量 [1][5][19] - 主要公司2025年基础设施支出巨大:微软全球数据中心支出达800亿美元,亚马逊预计支出1250亿美元,Alphabet预计支出930亿美元,Meta在基础设施项目上花费约720亿美元 [5][19] - 电力供应成为硬约束,科技公司开始通过重启核电站来保障算力需求,例如微软签署为期20年的协议计划于2028年重启宾夕法尼亚州的三里岛核反应堆以提供835兆瓦电力 [1][5][19] - 电网容量不足已导致硅谷部分数据中心闲置,且贝恩公司估计到2030年AI年收入需达到2万亿美元以支撑建设规模,这超过了主要科技巨头2024年的总盈利 [5][24] 推理模型成为主流与智能体编码爆发 - 以OpenAI o1和DeepSeek-R1为代表的推理模型成为主流,AI具备了“多步思考”能力,显著提高了在数学、科学和编程任务中的表现 [1][7][11] - 推理的早期形式通过提示“让我们一步步思考”兴起,关键是通过强化学习进行微调,训练模型在生成输出前“思考”问题 [11] - 当推理模型学会使用工具时性能更好,例如结合工具使用的OpenAI o4-mini在一项多模态理解测试中达到了17.7%的准确率,比没有工具时高出3个百分点以上 [7][14] - “智能体编码”爆发,AI智能体已能独立处理复杂的软件开发任务,到2025年底,基于最新大模型的编码智能体在SWE-Bench基准测试中能够完成超过80%的任务 [1][7][21] - 编码应用从代码补全发展到能管理广泛软件开发任务的智能体系统,Claude Code、Google Gemini CLI、OpenAI Codex等成为竞争焦点 [7][21][25] 天价薪酬重塑人才市场 - 顶尖AI人才身价飙升至职业体育明星水平,Meta在2025年打破了传统薪酬结构,向研究人员提供部分四年期合同价值高达3亿美元的薪酬包 [2][6][15] - 扎克伯格亲自参与人才争夺战,成功招募了OpenAI的Jason Wei和Hyung Won Chung等关键研究人员 [6][18] - 作为回应,OpenAI为新员工提供了更激进的股票期权归属时间表和高达150万美元的留任奖金 [6][17] - AI工程师薪资轨迹反映了AI从学术好奇心到革命性技术的演变,顶级薪酬不断攀升 [16][18] 行业竞争与公司动态 - 顶级AI公司为熟练从业者展开激烈争夺战,从竞争对手处吸引顶尖人才,Meta从OpenAI、谷歌和Anthropic挖角,而微软AI首席执行官从Google挖走了20多名研究人员 [6][18] - 埃隆·马斯克的xAI从Meta聘请了十几名AI研究人员,马斯克谴责竞争对手的“疯狂”offer [18] - 除了人才竞争,模型制造商和集成开发环境开发者之间存在拉锯战,导致一些IDE提供商构建自己的模型,而谷歌构建了自己的IDE Antigravity [25] - 开放权重模型如Z.ai GLM-4.5和Moonshot Kimi K2成为热门选择,使自动化编码初创公司能够大幅削减成本 [25] 面临的现实挑战与成本 - 推理过程增加了推理成本,例如启用推理的Gemini 3 Flash在基准测试中使用了1.6亿个token,而未推理版本仅使用740万个token [13] - 生成推理token可能会延迟输出,增加了LLM推理提供商更快服务token的压力,但研究人员正在寻找使过程更高效的方法 [13] - 苹果和Anthropic的研究指出推理模型在某些复杂逻辑上仍存在局限性,且推理步骤可能遗漏对结论有关键贡献的信息 [7][14] - 尽管存在对AI泡沫的担忧,但对于计划花费数百亿美元建设AI数据中心的公司来说,高薪被认为是合理的支出 [17]
AI Coding 生死局:Spec 正在蚕食人类编码,Agent 造轮子拖垮效率,Token成本失控后上下文工程成胜负手
36氪· 2025-12-30 17:21
AI Coding生态演进:从补全到Agent主导 - AI Coding的演进分为两个时代:第一波由Copilot与Cursor开创,以人为主导,AI角色是预测“下一个字符”或“下一个编辑位置”,端到端时延被严格压在几百毫秒量级,模型规模和上下文长度受天然约束 [2] - 第二波在过去6–12个月迎来范式颠覆:Agent崛起,直接接管从需求分析到代码生成、工具调用到结果验证的任务 [2] - 随着模型能力与工具链完善,Agent会覆盖从需求到交付的更多环节,逐渐成为主流程;补全范式可能退居幕后,成为支撑Agent精细执行的底层能力之一 [3] 工具形态演化:IDE、CLI与Cloud并行 - 头部编程工具演化出三种形态并行:IDE、CLI、Cloud,用户需要的是在不同场景下都能交付任务的完整链路 [4] - CLI和Cloud Agent从一开始就是Agent主导形态,对UI要求不高,在Terminal或简化Web界面工作,用GitHub PR协作和交付 [4] - IDE依然被判断为最多人使用的入口,最符合程序员长期形成的工作习惯,但其形态本身很可能在三年内发生根本变化,不再以Editor为中心展开 [4][5] - IDE正在从“给人用的工具箱”变成“给AI和人一起共用的工具箱”,大量以人为中心设计的能力被拆解为更小、更明确、更AI友好化的Tool,供AI Agent按需调用 [5] Spec驱动开发的兴起与挑战 - Spec驱动开发在过去几个月迅速流行,仓库中堆起面向Agent的“Markdown脚手架”,被视为AI Coding的前沿解法 [1] - 行业对“Spec”的定义存在分歧:有人认为是更好的Prompt、更详细的产品需求文档、架构设计文档,或是“在写代码的时候,多用几个Markdown文件” [8] - 一线工具团队认为Spec与上下文工程(Context Engineering)不是一回事:Spec是上下文中最关键、最稳定的一类内容,承担“指导性Context”的角色,相当于给Agent一份可执行的契约;而上下文工程关注模型在当下是否拿到了足够的信息 [9] - Spec是一切用于指导代码生成的契约总和,可包括产品文档、设计稿、接口定义、边界条件、验收标准、执行计划等,但因其覆盖范围广、形态多、生命周期长而难以标准化 [9][10] - Spec标准是否有效取决于应用场景,因为它本质上是用一种文档/结构去交换正确性、效率、维护成本三样东西,不同场景对这三者的权重不同 [12] Spec与软件工程复杂性的对接 - Spec试图接住软件工程几十年积累下来的复杂性,其标准本质上是软件工程理论在AI编程工具中的具象化 [10] - 争议在于Spec驱动开发是否会导致“瀑布流程回归”,即在编码前完成大量文档工作,试图将开发人员从过程中剔除 [13] - 从工程视角看,Spec Coding真正想结构化的并非开发者的全部思考过程,而是那些最容易在长程任务里出错、最值得被验证和沉淀的部分 [13] - Spec更合理的形态是“活的契约”,是Plan-Execute闭环中的关键中间态,在推理-执行-反馈过程中不断校准Spec和代码制品的一致性 [14] - 从软件抽象发展历史看,Spec被视为在自然语言层级上尝试迈出的下一次抽象升级,但自然语言的模糊性决定了这是一条充满挑战、尚无成熟范式的探索路径 [15] Agent的“自己造轮子”问题与抽象复用 - Coding Agent在实践中存在一个被大量开发者吐槽的问题:极其偏好“自己从零开始实现功能”,而不是复用成熟库 [16] - 对模型而言,“自己写一个能跑的版本”往往是风险最低的路径,当它对某个库的版本、用法或边界不确定时,回退到“自己实现”几乎是必然选择 [17] - 解决此问题的关键不在于对Agent进行人工纠偏,而在于补齐其可依赖的信息源,例如通过MCP工具补齐版本、用法与示例,再用“渐进式披露”把正确用法注入任务上下文 [17] Token成本失控与上下文管理成为核心 - Token成本在2025年突然复杂了一个数量级,根本原因在于范式迁移:大模型应用从“问答”跃迁到“Agent做事”,Token成本成为贯穿推理—执行—反馈链路的全生命周期成本 [18][19] - 关键变化是工具调用的隐形成本开始吃掉大头,为了完成一个任务往往需要多轮对话,每轮对话背后又会经历几次到几百次不等的工具调用 [20] - Spec Coding和多Agent协作让成本结构继续膨胀:Spec/Plan/ToDo/变更说明/验收清单等中间产物被反复生成、引用与迭代,形成新的上下文常驻内容;多Agent又把Token变成通信效率问题 [21] - Token工程的真正战场是上下文管理,目标是最大化KV cache命中率,避免在长程Agent任务中被重复、无意义的上下文刷新拖垮吞吐和稳定性 [22] - 上下文工程的技术演进从早期的Prompt Engineering,逐步演进到更系统化的Context Engineering,实践表明以RAG为代表的“外挂式知识补充”在工程上更具性价比 [23] 上下文工程的技术演进路径 - 随着Coding Agent出现,交互从单轮对话转向多轮、长期的Agent Loop,相关信息由Agent在执行过程中按需检索与召回,这催生了embedding search与grep等能力的逐步登场 [24] - Cline和Claude Code在今年就从传统的RAG转向grep [24] - embedding search并未过时,它更像是数据库中的index,在特定条件下能提升召回效率,而grep在确定性和精确匹配上具备优势,两者服务于不同的检索阶段和需求类型 [24] - 随着任务复杂度增加,Agentic Search逐渐演化出来,并与Sub Agent机制协同出现,例如专门的Search Agent负责多轮检索、筛选与验证 [25] - 行业逐渐意识到真正稀缺的不是上下文长度,而是有效Context的组织能力,需通过缓存、裁剪、摘要、检索等机制把Token的边际成本控制在工程可接受的范围内 [25][26] AI编程的系统工程视角 - AI编程被视为一个至少由四层构成的系统工程:模型层负责“思考”,Tool层负责“行动”,IDE层承载人机交互,上下文层负责“记忆与连续性” [27] - 模型层决定上限;Tool层决定它能不能真的做事;IDE层决定人是否能高效表达意图、及时纠偏;上下文层把这一切粘合在一起,承载历史决策、工程约束与连续性,是长期可靠性的基础 [27] - 未来AI编程的真正分水岭,或许并不仅仅在于“谁的模型更强”,而还在于谁能持续、准确地把工程世界中那些原本隐性的约束、记忆和共识,转化为模型可理解、可执行、并可被反复验证的上下文结构 [27]
吴恩达年终总结:2025是AI工业时代的黎明
机器之心· 2025-12-30 14:57
文章核心观点 - 2025年是人工智能工业时代的黎明,行业从算法竞赛演变为一场涉及人才、算力、基建和能源的工业革命 [13][36] - 尽管行业在人才、资本和基础设施上投入巨大,但推理模型的成熟和编程智能体的进化极大地降低了AI开发的门槛,为开发者创造了前所未有的机会 [36] 2025年AI行业关键趋势 模型能力:推理成为标配并解决更大问题 - 2025年初,模型需明确提示才会执行推理策略,而年底大多数新的大语言模型已默认具备此能力,显著提升了广泛任务的性能 [20] - 推理模型在数学、编程和科学问题解答上表现卓越,例如OpenAI的o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手的第62百分位,而GPT-4o仅为第11百分位 [23] - 当推理模型学会使用工具(如计算器、搜索引擎)时,表现进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比不使用工具时高出3个多百分点 [23] - 机器人动作模型通过强化学习学会推理,在任务上的表现相较于不具备思考能力的模型提升了约8% [23] - 推理能力提升性能的同时也增加了成本和延迟,例如Gemini 3 Flash开启推理时消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[21] - 研究人员正努力提高推理效率,例如Claude Opus 4.5与GPT-5.1取得相同分数,但前者消耗4800万tokens,后者消耗8100万tokens [21] 人才争夺:巨额薪酬成为常态 - 领先的AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬挖角,例如Meta为新成立的Meta Superintelligence Labs向来自OpenAI、Google、Anthropic的研究人员开出高达数亿美元的待遇 [22] - 为抵御挖角,OpenAI提供了更高比例的股票薪酬,加快新员工期权归属进度,并发放高达150万美元的留任奖金 [26] - 具体案例包括:Meta成功招募了OpenAI的Jason Wei和Hyung Won Chung [27];Andrew Tulloch最初拒绝了Meta价值15亿美元的奖金方案,但几个月后改变主意加入 [27];Meta聘请了前Apple AI主管Ruoming Pang,其薪酬方案在数年内累计高达数亿美元 [27];Microsoft AI CEO从Google带走了20多名研究人员 [27];xAI从Meta挖走了十多名AI研究人员 [27] 基础设施:数据中心建设狂潮 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心 [26] - 各大公司规划宏伟蓝图,建设规模堪比小镇、能耗相当于中型城市的设施,据麦肯锡预测,到2030年相关成本可能高达5.2万亿美元 [26] - 主要公司具体计划: - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦的数据中心产能,并预测需求量是该数字的5倍 [31] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量为5吉瓦的数据中心 [31] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心 [31] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是位于印第安纳州的一个2.2吉瓦数据中心 [31] - **Alphabet**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心 [31] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资 [29] 应用落地:智能体编程成为核心战场 - 编程已成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一 [30] - 2024年首个智能体代码生成器Devin将SWE-Bench基准测试的最高水平从1.96%提升到13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务 [30] - 智能体系统性能的快速提升催生了SWE-Bench Verified、LiveBench等一系列新的评估基准 [33] - 2025年初,业界认为智能体仅擅长生成常规代码,但到年底,许多公司报告已开始自动化资深级别的任务,Microsoft、Google、Amazon和Anthropic均表示自身越来越多的代码正由AI生成 [33] - 主要模型与应用进展:Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型 [39];开放权重模型如GLM-4.5和Kimi K2帮助初创公司大幅削减成本 [39];Anthropic推出Claude Code应用,OpenAI随即推出基于GPT-5系列的Codex应用 [39];模型制造商与IDE开发者展开竞争,导致部分IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity [39] 对从业者的建议 - 要真正具备构建AI系统的能力,需要进行结构化学习(如学习AI课程)、持续动手构建AI系统,并可选择阅读研究论文 [6][14] - 在没有理解AI基础的情况下贸然动手,容易导致重复发明轮子或走弯路 [6] - 随着高度智能化的编程助手出现,动手构建的门槛已比以往任何时候都低 [8]