推理模型
搜索文档
奥特曼的“帝国隐忧”:多线扩张,正在拖慢ChatGPT
创业邦· 2025-12-24 11:25
文章核心观点 - OpenAI面临深刻的战略与运营危机,其追求前沿通用人工智能(AGI)与推理模型的技术路线,与ChatGPT数亿主流用户对即时、简单应用的需求严重脱节,形成“性能过剩”鸿沟 [6][9] - 公司CEO山姆·奥特曼推动的多线扩张战略(如Sora、硬件、机器人等)导致资源分散,削弱了对核心产品ChatGPT的投入,使其在应对谷歌等竞争对手的生态整合攻势时陷入被动 [6][12] - 公司增长出现悖论:商业化变现(年化收入从60亿美元激增至超190亿美元)取得惊人进展,但用户增长(周活跃用户不足9亿)显著放缓,且面临谷歌Gemini等对手在用户规模与使用时长上的快速反超 [13][14][19][21] - 为应对危机,公司拉响为期八周的“红色代码”警报,试图将资源重新聚焦于ChatGPT核心产品,并布局硬件等长期生态,但公司仍需在AGI研究实验室与赢得AI产品市场的公司定位之间做出根本抉择 [25][26][29][30] 核心矛盾:前沿研究与大众需求的“性能过剩”鸿沟 - OpenAI内部超过千人的独立研究团队重心押注于追求“推理模型”和通用人工智能(AGI),此类模型在复杂问题上表现出色,但代价是高昂计算成本和缓慢响应速度(需数秒甚至数分钟)[9] - 这与ChatGPT数亿主流用户的需求严重脱节,多数用户仅询问如电影评分、日常咨询等非常简单的问题,无需模型“思考半个小时”[9] - 这种脱节导致产品化挫折:2025年初将先进推理模型转化为ChatGPT可用版本时性能“意外地变差”,即使以“思考模式”嵌入,在近9亿周活用户中也仅有极少数人频繁使用 [9] - 甚至传统非推理模型在集成到产品时,也可能因与“个性化”等功能冲突而导致性能下降 [10] 多线作战与资源内耗 - 在ChatGPT之外,公司同时推进Sora视频生成、音乐AI、AI网页浏览器、AI智能体、消费级硬件、机器人等一系列雄心勃勃的项目 [12] - 这些并行项目分流了本应集中投入ChatGPT的关键资源,削弱了用于提升其大众化吸引力的投入,导致核心收入引擎在内部资源博弈中“失血”[12] - 公司文化仍受“研究优先”基因主导,产品本身并非终点 [12] - 多线作战导致决策滞后和被动,如图像生成功能优先级一度被降低,直到2025年8月谷歌发布流行的Nano Banana图像生成器后才仓促重新聚焦 [12] 增长悖论:用户增速放缓与商业变现竞赛 - 公司年初设定年内达到10亿周活跃用户目标,但截至12月初用户数“不足9亿”,且增长显著放缓 [13] - 商业化变现取得惊人进展:年化收入从1月份的60亿美元激增至目前的超过190亿美元,主要动力来源于个人和企业用户订阅,有望实现年底200亿美元年化收入目标 [13][14] - 在每100名ChatGPT的周活跃用户中,约有5人付费订阅其Pro或Plus服务 [16] - 为实现2030年2000亿美元收入愿景,公司必须将周活跃用户转化为日活跃用户,以创造更多变现机会(如广告、交易抽成)[16][18] - 专注于从现有用户获取高额订阅收入的策略,可能正在损害用户基础的进一步扩大 [19] 谷歌的反击与OpenAI的生态劣势 - 谷歌在搜索结果顶部整合AI生成答案摘要,2023年10月报告称该功能正推动“有意义”的搜索量增长和收入提升 [21] - 谷歌Gemini在2025年实现快速增长:月活用户从7月的4.5亿增至6.5亿,网站访问量单月增长14.3%,而ChatGPT同期访问量连续两月下降;且Gemini平均访问时长自9月起已超越ChatGPT [21] - 谷歌的成功不仅源于模型性能(如Nano Banana Pro图像生成器、Gemini 3),更关键在于其能力已无缝融入Gmail、Chrome、YouTube等数十亿用户入口的现有工作流 [12][21] - 相比之下,OpenAI生态劣势明显,ChatGPT在很大程度上仍是一个需要用户主动访问的独立工具 [12] - 前员工警告,若谷歌在原始性能上实现超越甚至免费提供Gemini,可能同时扼杀OpenAI的API和消费者订阅业务 [23] - 在企业客户市场,根据Menlo Ventures报告,OpenAI份额已降至27%,而Gemini上升至21%,Anthropic以40%的份额领先 [29] “红色代码”警报与战略调整 - 2025年12月,CEO山姆·奥特曼拉响“红色代码”警报,要求将资源重新集中到ChatGPT及其推理能力等核心基础,并推迟广告、扩展电商等短期盈利项目,目标是在明年1月底通过重大产品更新扭转局面 [25] - 公司迅速推出一系列应对措施:发布GPT-5.2(内部代号Garlic)重夺多项性能基准榜首;推出新图像生成模型回应谷歌竞争;回退模型路由系统,让免费用户默认使用更快的GPT-5.2 Instant [25] - 模型路由系统仅运行四个月就被撤回,因其将免费用户使用推理模型的比例从不到1%提升至7%,显著增加成本,却因响应慢“对日活指标产生负面影响”[25] - 此次“红色代码”持续八周,是比以往更长的紧急状态,聚焦于应对谷歌竞争 [26] 未来挑战与硬件布局 - 公司预计年化收入超过190亿美元,但正“每年烧掉数十亿美元现金”以支付惊人计算成本,其规划的1.4万亿美元基础设施投入更是天文数字,迫切需要ChatGPT创造更大、更稳定的现金流 [29] - 与谷歌、微软、苹果等拥有成熟软硬件生态的巨头相比,OpenAI本质上仍是一家“模型公司”,其通过与迪士尼合作、聘请苹果前设计主管乔尼·艾维开发硬件来构建生态的努力需要时间 [23][26][29] - 奥特曼已开始布局宏大的硬件战略,目标开发一款OpenAI设备以取代智能手机成为随身携带新标准,为此聘请了前苹果设计主管乔尼·艾维并收购其初创公司 [26] - 这预示着OpenAI可能与苹果在硬件领域发生直接碰撞,争夺下一代人机交互范式的话语权 [27]
奥特曼的“帝国隐忧”:多线扩张,正在拖慢ChatGPT
36氪· 2025-12-23 08:33
核心矛盾:前沿研究与大众需求的“性能过剩”鸿沟 - 公司内部超过千人的独立研究团队重心押注于追求“推理模型”和“通用人工智能”,此类模型在复杂数学和科学问题上表现出色,但代价是高昂的计算成本和缓慢的响应速度,处理问题可能需要数秒甚至数分钟[1] - 这与ChatGPT数亿主流用户的需求严重脱节,大多数用户询问的可能是非常简单的日常问题,如电影评分、日常咨询,根本不需要模型长时间“思考”[2] - 2025年初,将最先进的推理模型转化为ChatGPT可用版本时,其性能反而意外变差,即使以“思考模式”嵌入,在近9亿周活跃用户中也仅有极少数人频繁使用[2] - 传统的非推理模型在集成到ChatGPT产品时,也可能因与“个性化”等功能的冲突而导致性能下降[2] 多线作战:战略扩张与核心产品的资源内耗 - 公司在ChatGPT之外,同时推进了包括Sora视频生成、音乐AI、AI网页浏览器、AI智能体、消费级硬件设备、机器人等一系列雄心勃勃的项目[4] - 这些并行项目持续分流了原本应集中投入在ChatGPT上的关键资源,削弱了用于提升ChatGPT大众化吸引力的投入强度[4] - 公司文化与决策层面依然深受“研究优先”基因主导,产品本身并非终点[4] - 图像生成功能优先级一度降低,直到2025年8月谷歌发布流行产品后才仓促重新聚焦,暴露了多线作战导致的决策滞后和被动[5] 增长悖论:用户增速放缓与商业变现的竞赛 - 公司年初设定了年内达到10亿周活跃用户的宏大目标,但截至12月初,其用户数不足9亿,且用户增长正在显著放缓[6] - 商业化变现取得惊人进展,年化收入从1月份的60亿美元激增至目前的超过190亿美元,主要动力来源于个人和企业用户的订阅[6] - 公司正寻求以7500亿美元的估值进行融资,该估值较两个月前高出50%[6] - 在每100名ChatGPT的周活跃用户中,约有5人付费订阅其Pro或Plus服务[8] - 为实现2030年规划的2000亿美元收入愿景,公司必须将周活跃用户转化为日活跃用户,以创造更多变现机会[8][11] - 专注于从现有用户获取高额订阅收入的策略,可能正在损害其用户基础的进一步扩大[11] 竞争围剿:谷歌的反击与生态劣势 - 谷歌在搜索结果顶部整合AI生成的答案摘要,正推动有意义的搜索量增长和收入提升[12] - 2025年,谷歌Gemini实现快速增长:月活用户从7月的4.5亿增至6.5亿,网站访问量单月增长14.3%,而ChatGPT同期访问量却连续两月下降[12] - Gemini的平均访问时长自9月起已超越ChatGPT[12] - 谷歌的Nano Banana Pro图像生成器因能生成可读且上下文相符的文字而风靡社交网络[12] - 用户转向Gemini不仅仅是因为模型更好,而是发现其AI能力已经无缝融入谷歌庞大的产品生态中[5][12] - 前员工警告,如果谷歌在原始性能上实现超越甚至免费提供Gemini,可能同时扼杀公司的API和消费者订阅业务[14] - 在企业客户市场,公司份额已降至27%,而Gemini则上升至21%,Anthropic以40%的份额领先[18] 战略调整与未来挑战 - 公司CEO在12月拉响“红色代码”警报,要求将资源重新集中到ChatGPT及其推理能力等核心基础之上,并推迟广告、扩展电商等短期盈利项目,希望在明年1月底通过一次重大产品更新来扭转局面[15] - 公司迅速推出一系列应对措施:发布GPT-5.2重新夺回多项AI模型性能基准榜首;推出新图像生成模型回应竞争;回退模型路由系统,让免费用户默认使用更快的GPT-5.2 Instant[15] - 模型路由系统仅运行四个月就被撤回,因为它将免费用户使用推理模型的比例从不到1%提升至7%,显著增加了成本,却因响应慢对日活指标产生负面影响[15] - 此次“红色代码”持续八周,是比以往更长的紧急状态[15] - 公司正每年烧掉数十亿美元现金以支付惊人的计算成本,其规划的1.4万亿美元基础设施投入更是天文数字[18] - 公司正试图通过与迪士尼合作、聘请苹果前设计主管开发硬件来构建生态,但这需要时间[14][18] - 公司CEO已开始布局宏大的硬件战略,聘请前苹果设计主管乔尼·艾维,旨在开发一款设备以取代智能手机成为新标准,这可能预示与苹果发生直接碰撞[16][17]
OpenAI的困惑:全力提升ChatGPT“深度研究”能力,但C端用户“用不上”
华尔街见闻· 2025-12-19 09:35
核心观点 - OpenAI面临深刻的战略困惑,其尖端AI研发进展与核心产品ChatGPT的大众市场需求脱节,导致用户增长放缓,并引发内部资源重新聚焦的“红色警报”[1] - 尽管财务表现强劲,年化收入飙升且估值高涨,但用户增长乏力与谷歌等巨头的竞争压力构成了公司长期商业前景与高估值的核心矛盾[1][2][4] 战略与产品困境 - 公司研发重心与主流用户需求存在“鸿沟”,研究团队主要精力放在开发擅长复杂数学、科学问题的“推理模型”,但这些能力对大多数询问简单问题的用户而言过于高深[2] - ChatGPT当前以文本为中心的界面被比作上世纪80年代的MS-DOS操作系统,限制了用户发现其分析图像等其他功能的能力,需转向更具生成性和直观性的界面以获得大众市场青睐[3] - 在集成新的GPT-5模型时,研究人员发现模型性能会与ChatGPT的个性化功能相互干扰,反映出新技术落地为成熟产品时,公司内部协调面临障碍[8] 用户增长与财务表现 - 公司用户增长面临挑战,周活跃用户数截至本月早些时候不足9亿,难以实现年初设定的10亿周活跃用户目标[1][4] - 为实现2030年2000亿美元营收目标,公司将海量周活跃用户转变为日活跃用户视为未来商业化的关键[4] - 公司财务表现强劲,年化收入从今年1月的60亿美元飙升至超过190亿美元,主要得益于付费订阅,并有望在年底达到200亿美元年化收入目标[2][4] - 公司正寻求以高达7500亿美元的估值进行新一轮融资,该估值比两个月前高出50%[2][4] 竞争压力与市场地位 - 来自谷歌的竞争压力是促使CEO发布“红色警报”的直接原因,谷歌的AI模型在图像生成、代码处理等方面能力已与ChatGPT不相上下,且拥有搜索、Chrome浏览器等强大分发渠道及自研AI芯片的成本优势[5] - 公司内部领导层担心普通用户将很难区分ChatGPT和谷歌的Gemini,且聊天机器人的用户粘性相对较弱,使得OpenAI的市场地位更加脆弱[7] - 谷歌在8月发布备受消费者好评的图像生成AI“Nano Banana”后,OpenAI领导层才匆忙决定追赶该领域,此前曾降低其图像生成模型的开发优先级[5] 组织架构与资源分配 - 公司拥有超过1000人的研究部门在很大程度上与公司其他部门“隔绝”,被描述为本质上仍是一家以研究为中心的公司,“产品本身不是目标”[8] - CEO Sam Altman在今年大部分时间里将精力分散在Sora视频应用、音乐生成AI、网页浏览器、消费硬件和机器人等多个前沿项目上,占用了本可用于提升ChatGPT大众吸引力的宝贵资源[8] - CEO的“红色警报”旨在将部分员工调回ChatGPT项目,以应对迫在眉睫的竞争威胁[7]
100万亿Token揭示今年AI趋势,硅谷的这份报告火了
36氪· 2025-12-09 11:21
开源与闭源模型格局演变 - 开源模型使用量稳步增长,预计到2025年底将达到总用量的约三分之一,与闭源模型形成互补关系而非零和博弈 [5][7] - 中国开源模型成为增长主要引擎,其每周Token使用量占比从2024年底的1.2%最高激增至30%,平均占比为13% [5][9] - 开源模型市场从高度集中转向多元化,2025年上半年DeepSeek V3和R1占开源用量一半以上,但预计到年底没有单一模型能持续占比超25%,市场将由5-7个模型均分 [12] 模型形态与市场偏好变化 - 中型模型(参数在150亿至700亿之间)更受市场青睐,小模型(参数少于150亿)正在失宠,市场分化为强大的中型模型类别或整合到最强大的单个大型模型上 [15] - 开源模型不再被视为闭源“平替”,而是找到了特定场景的首选定位,开发者往往同时使用两类模型 [7] 推理模型与工具调用成为新范式 - 模型正从“语言生成系统”转变为“推理执行系统”,使用推理的Token用量从年初可忽略不计增长至超过50% [5][18] - 在所有推理模型中,xAI的Grok Code Fast 1使用的推理流量份额最大,领先于Gemini 2.5 Pro和Gemini 2.5 Flash [19] - 模型调用工具的功能使用占比上升,从最初集中于GPT-4o-mini和Claude 3.5/3.7系列,发展到更多模型支持,Claude 4.5 Sonnet等新玩家取得显著进展 [24] AI主要应用场景与使用方式演变 - 编程和角色扮演是AI模型的主要使用方式,编程查询用量从年初的11%上涨至最近的超50% [6][33] - 在所有编程模型中,Claude系列长期占据主导地位,大部分时间占比超过60%,但其在2025年11月市场份额首次跌破60% [36] - 在开源模型中,角色扮演使用量占比高达52%,中国开源模型DeepSeek的流量中有超过三分之二用于角色扮演和闲聊 [40] - 用户使用模式变复杂,从“写短文”到“解难题”,平均每次提示词长度增加约4倍,完成任务所需Token用量增加近3倍 [26][27][30] - 模型正变成“自动Agent”,用户给出复杂目标后,模型能自行规划步骤、调用工具并在长对话中保持状态以完成任务 [33] 主要厂商模型的应用侧重 - Anthropic模型80%以上流量用于编程和技术任务 [43] - xAI模型同样专注于编程,其技术应用、角色扮演及学术用途在2025年11月下旬显著增长 [47] - Qwen模型主要发力编程端,角色扮演和科学类任务占比随时间波动 [51] - OpenAI模型的工作重点从娱乐休闲活动逐渐转向编程和技术类任务 [53] 用户留存呈现“水晶鞋效应” - 大部分用户会快速流失,但每一代前沿AI模型发布时,会锁定一小批任务需求与其新能力完美匹配的“天选用户”,形成高粘性 [57] - 典型案例如Claude 4 Sonnet和Gemini 2.5 Pro,发布5个月后用户留存率仍保持40%高水平 [57] - “水晶鞋效应”窗口期很短,基本只在模型刚发布被视为“最前沿”的那段时间,一旦竞品发布抹平能力差距,再吸引新用户将非常困难 [57][60] 区域市场与语言使用变化 - AI不再是硅谷独角戏,亚洲地区付费使用量占比从13%翻倍至31% [61] - 北美仍是最大市场,但份额已不足50% [61] - 英语以82%份额占据绝对主导,简体中文以近5%份额位居第二 [61] 模型定价与使用量的关系 - 模型价格下降对使用量的影响比想象中小,价格下降10%,使用量仅增加0.5%-0.7% [61] - 存在“杰文斯悖论”,当模型变得足够便宜且好用,人们会在更多地方、用更长上下文、更频繁地调用,导致总Token用量飙升,总支出可能并不降低 [61]
100万亿Token揭示今年AI趋势!硅谷的这份报告火了
新浪财经· 2025-12-08 20:28
报告核心观点 - 基于对OpenRouter平台自2024年11月至2025年11月超过100万亿Token使用量的分析,报告揭示了AI行业的发展趋势,核心观点包括开源模型与闭源模型形成互补、中国开源模型影响力显著提升、模型使用范式向推理与工具调用转变、编程与角色扮演成为主要应用场景以及用户留存呈现“水晶鞋效应”等 [3][5][6][70] 开源与闭源模型格局演变 - 开源模型使用量持续增长,预计到2025年底将达到总使用量的约三分之一,与闭源模型形成互补关系,而非简单的替代关系 [5][6][71] - 开源模型已找到独特定位,成为特定场景的首选,开发者倾向于同时使用开源和闭源两类模型 [6][71] - 中国开源模型成为增长主要引擎,其每周Token使用量占比从2024年底的1.2%最高激增至30%,平均占比为13%,而其他地区开源模型的平均份额为13.7% [2][7][10][74] - 开源模型市场格局从高度集中转向多元化,2025年上半年DeepSeek V3和R1占据一半以上份额,但下半年随着MiniMax M2、Kimi K2、GPT-OSS等模型发布,市场趋于分散,预计年底没有单一模型能持续占据超过25%的Token用量,市场将由5到7个模型均分 [13][77] 模型形态与架构趋势 - 开源模型形态发生变化,中型模型(参数在150亿到700亿之间)更受市场青睐,小模型(参数少于150亿)正在失宠,市场分化为强大的中型模型类别或整合到最强大的单个大型模型(参数为700亿或更多)上 [16][20][80][85] - 语言模型正从“语言生成系统”转变为“推理执行系统”,使用推理功能的Token用量从年初可忽略不计增长至超过50% [7][18][83] - 在所有推理模型中,马斯克xAI旗下的Grok Code Fast 1使用的推理流量份额最大,领先于Gemini 2.5 Pro和Gemini 2.5 Flash,而几周前Gemini 2.5 Pro还是主力 [21][86] - 模型调用工具的功能使用占比上升,年初该功能集中于GPT-4o-mini和Claude 3.5/3.7系列,年中后更多模型开始支持,生态系统更具竞争性,9月底后Claude 4.5 Sonnet、Grok Code Fast和GLM 4.5等新玩家取得进展 [24][89] 主要应用场景与使用方式 - 编程和角色扮演是AI模型的两大主要使用方式 [7][32][70] - 编程类查询的用量从年初的11%上涨至最近的超过50%,增长最为稳定 [32][97] - 在编程模型领域,Claude系列长期占据主导地位,大部分时间占比超过60%,但到2025年11月其市场份额首次跌破60% [35][100] - 同期,OpenAI在编程领域的市场份额从2025年7月的约2%增长至近几周的约8%,谷歌市场份额稳定在约15%,开源模型如Qwen、Mistral份额稳步提升,其中MiniMax被特别提及为快速崛起的新秀 [35][100] - 在开源模型中,角色扮演的使用量占比达到52%,几乎与编程持平,中国开源模型与西方开源模型在该领域平分秋色 [38][103] - DeepSeek的流量中有超过三分之二是角色扮演和闲聊,显示了其在消费者端的高粘性 [38][103] 主流模型的使用偏好 - Anthropic(Claude)超过80%的流量用于编程和技术任务,是主要的程序员工具 [41][106] - 谷歌模型用途相对宽泛,涵盖法律、科学、技术和常识性查询 [44][109] - 马斯克旗下的xAI同样专注于编程,其技术应用、角色扮演及学术用途在2025年11月下旬显著增长 [47][112] - OpenAI的使用重点随时间从娱乐休闲活动逐渐转向编程和技术类任务 [50][115] - Qwen模型同样发力编程端,角色扮演和科学类任务的使用量随时间有所波动 [52][117] 用户行为与市场动态 - 用户留存呈现“水晶鞋效应”,即新模型发布时若能完美解决特定痛点,就能锁定一批高粘性用户,例如Claude 4 Sonnet和Gemini 2.5 Pro发布5个月后用户留存率仍保持40% [7][55][120] - “水晶鞋效应”的窗口期很短,仅在模型刚发布被视为最前沿时有效,一旦竞品发布、能力差距被抹平,则难以再吸引新用户 [58][59][122][123] - 模型任务复杂度提升,从“写短文”变为“解难题”,用户平均每次提示词长度增加了约4倍,且由于推理消耗更多Token,完成任务所需的总Token用量增加了近3倍 [27][29][92][94] - 模型正演变为“自动Agent”,用户给出复杂目标后,模型能自行规划步骤、调用工具并维持对话状态以完成任务,从“聊天机器人”转变为“智能Agent” [32][97] - 模型价格下降对使用量的影响有限,价格下降10%仅带来使用量0.5%至0.7%的增长 [65][129] - 存在“杰文斯悖论”,即模型降价后,因使用更频繁、上下文更长,总Token消耗可能飙升,总支出未必降低 [60][124][125] 区域与语言市场变化 - AI使用不再是硅谷独角戏,亚洲地区的付费使用量占比从13%翻倍至31% [65][129] - 北美仍是最大市场,但份额已不足50%,地位相对下降 [65][129] - 英语以82%的份额占据绝对主导,简体中文以近5%的份额位居第二 [65][129]
100万亿Token揭示今年AI趋势!硅谷的这份报告火了
量子位· 2025-12-08 19:36
文章核心观点 - 基于对OpenRouter平台超过100万亿Token使用数据的实证分析,揭示了2025年AI行业的发展趋势,核心结论包括开源与闭源模型关系转变为互补、中国开源模型力量崛起、模型功能向推理与执行系统演进、编程与角色扮演成为主要应用场景以及用户留存呈现“水晶鞋效应”等[1][8][12] 开源与闭源模型格局演变 - 开源模型不再是闭源模型的廉价替代品,两者关系已演变为互补,开发者常同时使用两类模型[9][10] - 开源模型使用量稳步增长,预计到2025年底将占据约三分之一的Token用量[10][12] - 开源模型市场从高度集中走向多元化,早期DeepSeek V3和R1曾占一半以上用量,但预计到2025年底,没有单一模型能持续占比超25%,市场将由5~7个模型均分[16][17][18] - 中型模型(参数在150亿到700亿之间)更受市场青睐,小模型正在失宠,市场分化为强大的中型模型类别或整合到最强大的单个大型模型上[20][21] 中国开源模型崛起 - 中国开源模型成为增长主要引擎,其每周Token使用量占比从2024年底的1.2%最高激增至30%,平均占比为13%,与其他地区开源模型平均13.7%的份额相当[12][13] - 中国模型如DeepSeek、MiniMax、Kimi K2等在开源领域受到青睐,其中DeepSeek在角色扮演和闲聊领域有极高粘性,超过三分之二的流量用于此[1][16][50] - 在编程领域,中国模型如MiniMax已成为快速崛起的新秀,近几周取得显著增长[48] 模型功能与使用范式转变 - 语言模型正从对话系统升级为推理与执行系统,使用推理功能的Token用量从年初可忽略不计增长至超过50%[22] - 模型调用工具的功能使用占比上升,从年初集中于少数模型发展到更多模型支持,缺乏可靠工具的模型有落后风险[29][30][31][33] - 用户任务复杂度提升,从生成短文转向解决难题,如分析完整文档或代码库[35] - 用户平均每次提示词长度增加约4倍,模型完成任务所需Token用量增加近3倍,反映出工作负载更依赖上下文且推理消耗更多[36][39] - AI正从聊天机器人转变为能独立规划步骤、调用工具并完成复杂目标的自动智能体(Agent)[42][43] 主要应用场景与模型偏好 - 编程和角色扮演是AI模型最主要的使用方式[12][44] - 编程查询的Token用量从年初的11%上涨至最近的超过50%,增长最为稳定[45] - 在编程领域,Claude系列长期占据主导地位,大部分时间占比超过60%,但其份额在2025年11月首次跌破60%[47] - OpenAI在编程领域的市场份额从2025年7月的约2%增长至近几周的约8%,谷歌份额稳定在约15%[47][48] - 在角色扮演领域,开源模型中其使用量占比高达52%,中国与西方开源模型在该领域平分秋色[50] 用户行为与留存特征 - 用户留存呈现“水晶鞋效应”,即新模型发布时若能完美解决特定用户痛点,便能锁定一批高粘性用户,即使后续有更好模型也难以被替换[12][67] - 例如,Claude 4 Sonnet和Gemini 2.5 Pro发布5个月后用户留存率仍保持40%高位[67] - 该效应窗口期很短,仅在模型被视为“最前沿”时有效,一旦竞品能力赶超则难以吸引新用户[69][70] - 用户留存模式可分为:成功锁定(如Claude、GPT-4o Mini)、从未合脚(如Gemini 2.0 Flash)、回旋镖效应(用户离开后因性价比或特定能力又回归,如DeepSeek)[74] 市场与区域动态 - AI不再是硅谷独角戏,亚洲地区付费使用量占比从13%翻倍至31%[71] - 北美仍是最大市场,但份额已不足50%[80] - 英语以82%的份额占据绝对主导,简体中文以近5%的份额位居第二[80] 其他关键发现 - 模型价格下降对使用量的影响有限,价格下降10%仅带来0.5%-0.7%的使用量增长[80] - 存在“杰文斯悖论”现象,即模型降价且好用后,用户会在更多场景更频繁地调用,导致总Token用量飙升,总支出可能并未降低[75][76] - 报告数据主要反映开发者与服务端API调用行为,未涵盖通过App或Web直接访问的流量,且平台定价策略可能影响数据代表性[76]
OpenAI大溃败,GPT-5「换皮」GPT-4o,两年半预训练0突破
36氪· 2025-12-01 10:12
OpenAI研发进展与挑战 - 自2024年5月GPT-4o发布后,公司顶尖团队尚未完成一次为下一代前沿模型设计的大规模预训练[3][5] - 过去两年半时间,公司没有真正扩大预训练的规模[7] - 第五代旗舰模型GPT-5及GPT-5.1的技术根基可能仍未突破GPT-4o的范畴,而非基于全新前沿模型的大规模预训练[1][12][25] 具体项目遇挫详情 - 秘密项目Orion原定以GPT-5面世,但因训练未达预期被降级为GPT-4.5发布[11] - Orion大规模预训练时间超过3个月,打破行业通常1-2个月的常规,且性能提升主要局限在语言能力,代码能力甚至不如旧模型且成本更高[14][17] - GPT-4.5基于Orion模型,追求更强的语言能力、更稳的对话体验和更大知识库,情商成为关键词,代码虽有提升但并非主菜[17][18] 模型性能与行业对比 - GPT-5发布后业界反响唏嘘,被视为GPT-4.5的进一步优化版而非颠覆性飞跃[20] - 技术社区观点认为GPT-5更像是GPT-4o的功能增强版,即便命名为GPT-4.2也毫不违和[34][35] - 相比前代GPT-4.5,GPT-5很可能消耗了更少的训练算力[36] - 根据基准测试数据,谷歌Gemini 3 Pro在多项指标上超越GPT-5.1,例如Humanity's Last Exam(37.5% vs 26.5%)、ARC-AGI-2(31.1% vs 17.6%)、MathArena Apex(23.4% vs 1.0%)等[31] 战略转向与内部调整 - 公司将更多精力转向推理模型,这种模型计算量更大但有望输出更优质回答[34] - 公司内部共识已从追求“统治一切”的超级模型转变为模型专业化和多样化,认可需要针对特定任务的专用模型[54] - 公司正打造代号为“Shallotpeat”的新一代大语言模型,专门修复预训练过程中遇到的种种疑难杂症[46][50] - 公司重点发展智能体开发工具“Agent Builder”,将智能体划分为探索型/非定向工作和流程型/SOP导向工作两类[60][62] 竞争对手动态与行业影响 - 谷歌在预训练领域取得新突破,给Gemini 3带来空前推理深度,而谷歌和Anthropic仍在扩大预训练并增强强化学习[25][31] - 公司内部备忘录承认谷歌在大语言模型特别是预训练方面表现出色,承认竞争对手重新崛起和企业需求降温打破了其无敌光环[27][29] - 公司计划在圣诞节前夕发布一系列新模型,包括Image Gen v2、IMO和IOI金牌多模态模型、GPT-5.2 Codex等[72][73]
The Information:承认谷歌超越!奥特曼内部信曝光:OpenAI领先优势缩小,预警“艰难时刻”到来
美股IPO· 2025-11-21 19:42
公司竞争态势 - OpenAI首席执行官在内部备忘录中承认,谷歌在人工智能领域的最新进展可能给公司带来一些暂时的经济逆风 [1][3] - 谷歌本周推出的Gemini模型在自动化网站和产品设计相关任务以及编程方面表现出色,而编程能力是AI公司最重要的收入驱动因素之一 [3] - 成立仅四年的Anthropic今年通过向开发者和企业销售AI所产生的收入可能超过OpenAI [4] - 尽管ChatGPT在使用量和收入上仍显著领先谷歌的Gemini聊天机器人,但差距正在缩小 [4][9] 技术挑战与应对 - 谷歌在AI预训练领域取得突破,该领域是开发大语言模型的第一阶段,而OpenAI一度难以在此取得进展 [5][7] - OpenAI在推出GPT-5模型前发现,预训练期间对模型所做的调整在模型规模增长后停止作用,表明需要解决预训练问题以赶上谷歌 [7] - 这些挑战促使OpenAI更多地转向一种名为推理模型的新型AI,该模型使用更多处理能力来产生更好的答案 [6] - OpenAI计划在未来几个月推出代号为Shallotpeat的新大语言模型,旨在修复在预训练过程中遇到的bug [7] 财务状况与资本压力 - OpenAI是历史上增长最快的企业之一,从2022年几乎零收入增长到今年预计的130亿美元 [9] - 公司在追求人类级别AI的过程中,预计未来几年将消耗超过1000亿美元,同时需要花费数千亿美元租用服务器,可能需要筹集同等规模的额外资本 [9] - 谷歌估值3.5万亿美元,仅在过去四个季度就产生了超过700亿美元的自由现金流,财务实力雄厚 [9] - OpenAI与谷歌等成熟企业之间的财务差距促使公开市场投资者质疑其收入增长是否足以消除对未来现金消耗的担忧 [10] 长期战略与定位 - OpenAI首席执行官表示希望专注于技术上非常雄心勃勃的押注,即使这意味着公司在当前体制下会暂时落后 [1][11] - 公司的长期押注包括在使用AI生成数据训练新AI方面取得进展,以及后训练技术如强化学习 [11] - 公司致力于同时成为最好的研究实验室、最好的AI基础设施公司和最好的AI平台/产品公司,并专注于实现超级智能 [11] - 公司首席执行官强调需要顶住短期竞争压力,并认为公司已积累足够实力来承受竞争对手推出的优秀模型 [11]
《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录
36氪· 2025-10-13 18:46
对话一:语言对于智能到底意味着什么? - 语言模型在智能构建中扮演核心角色,其成功源于对语言在智能中核心作用的认知,ChatGPT和Transformer的成功均得益于此[6][9] - 语言具备时间维度,总是在生成下一个词,而序列模型(如Transformer)可处理包括语言、蛋白质、音频在内的各种序列,时间序列是表达智能的重要组成部分[7] - 语言训练具有实践优势,互联网上海量的语言数据使得训练非常方便且成本远低于视频训练[9] - 语言模型确实会形成独立于语言的抽象概念,例如在解决数学问题时,尽管用不同语言生成答案,但解题方式和错误类型相同,表明模型在抽象空间进行思考[10] - 然而,未经过大量多模态数据训练的模型,其概念(如"痛苦"或"爱")可能与人类植根于物理世界的真实感受有所不同[11] 对话二:多模态与世界模型的挑战 - 现代大语言模型(如GPT-4)已是多模态模型,能接收和生成图像、音频,并已取得巨大进展,例如ChatGPT的语音模式可以对话、唱歌[12] - 当前多模态处理方式(如通过VQ-VAE将图像/音频编码为特殊代码)有效但不令人满意,未来需要更深入地将多模态融合到模型中,使编码更具可训练性并与语言有更多交互[13] - 语言对于为视觉对象赋予语义含义至关重要,否定语言价值的视觉派研究可能重蹈ChatGPT发布前的错误路线[14] - 现代大语言模型在某种程度上已是世界模型,在文本和数学方面表现卓越,但作为物理模型的表现不如语言模型,部分原因是视频训练数据不足、质量不佳及当前架构限制[14] - 通过改进架构、损失函数并增加更好更多的数据,结合像Sora、Genie和Veo这类从视频学习的模型,正在弥合"世界模型"与"语言模型"之间的差距[15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔"? - Transformer架构的创造者在早期就已预见其在自动化编程方面的应用潜力[17] - 未来语言模型将能覆盖大量编程工作,但数学符号和编程语言作为沟通工具,在解释复杂概念时比纯自然语言更高效,因此专业程序员仍需掌握这些概念以实现与模型的快速、高效沟通[18] - 编程的重点在于沟通和抽象,而非特定语言,AI有望帮助更好地使用现有编程语言来改进系统,而非必然需要创造新的为AI设计的编程语言[19] - 新的编程语言需求将来自新的计算硬件架构,而非AI编程本身[20] 对话四:Agent的泛化困境:是方法问题,还是根本限制? - 所谓的"智能体模型"通常指在其推理过程中能调用外部工具(如代码解释器、网络搜索)的推理模型,这些模型使用强化学习训练且效果良好[21] - Agent泛化问题的主要挑战在于缺乏学习信号,当模型使用未经训练的工具时,没有像强化学习训练那样的反馈机制来检查答案正确性[22] - 要实现出色的多智能体系统,需要能够模拟整个环境进行训练,而这在当前难以实现,但即使没有大量训练,聪明的模型也能零样本完成许多任务[23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖? - 预训练的Scaling Law已带来巨大进展,但存在经济上的实践极限,因为用户不愿为每个token支付过高费用,且大模型可被蒸馏成更小模型[25] - 预训练的Scaling Law在解决某些问题(如GSM-8K数学数据集)时速度不可行,而强化学习推理能用小模型解决相同问题,显示出更高的数据效率[26] - 推理模型的Scaling Law(通过强化学习让模型运行更长时间以提升性能)受限于Transformer的上下文长度设计以及强化学习在长序列推理中的信用分配问题[27] - 推理的Scaling Law与预训练的Scaling Law有不同限制,这呼唤新的研究和可能的架构或强化学习算法改进[28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异? - 具身智能可能更接近于当前的大语言模型,数据效率正在提高,例如推理模型能用极少样本学会困难任务[29] - 实现具身智能需要一个在大量视频上预训练好的多模态模型作为基础,再结合强化学习进行推理训练,但需要调整架构以适应现实世界行动的速度要求[30] - 第一个版本的具身智能模型可能基于现有成果调整,但未来会出现数据和计算更高效的新一代模型[31] 对话七:强化学习:是超级优化器,还是科学发现的引擎? - 由强化学习驱动的推理模型可被视为一种数据效率更高的新架构或范式,能够从有限数据(如1000道数学题)中学习[32][33] - 强化学习只依赖一个奖励信号,若优化得当,模型有望从研究论文中学习并提出连专业人员都觉得新颖的想法,推动科学发现[33] - 该范式仍处于早期阶段(社区广泛关注约一年),需要更多尝试、发现和改进以提升效率和应用范围[34] 对话八:AI的组织跃迁:如何实现大规模Agent协作? - 实现大规模Agent组织(如成千上万个Agent协作)的最大挑战在于开发下一代推理模型,需要类似Transformer之于RNN的架构创新[35] - 当前推理模型顺序生成token的方式缺乏并行性,未来需要为并行过程提供更多信号,并结合新的架构来融入并行处理[36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远? - 通过将记忆作为工具(如访问互联网或记忆库)并结合强化学习训练,模型可以有效地解决记忆问题,当前方案已相当可行[37][38] - 未来可能出现更优雅的记忆机制,如将记忆转化为连续的向量或通过类似LoRA的适配器微调模型权重,但这仍是待研究的问题[40] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习? - 利用上下文学习作为持续学习的记忆是当前已实现的进展,模型将对话信息放入上下文进行处理,但效率并非最高[39] - 通过记忆工具和像LoRA这样的适配器微调技术,实质性修改权重已变得更加可行,为持续学习提供了基础,但如何优化算法仍是研究重点[40] - 下一代推理架构有望实现更并行的处理,推动模型在科学发现等领域的应用,未来并不遥远[41]
“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录
AI科技大本营· 2025-10-10 17:52
对话一:语言对于智能到底意味着什么 - 语言在时间维度上对智能至关重要,语言模型本质是序列模型,处理时间序列是表达智能的重要组成部分 [6][7] - 语言经过人类编码压缩,在智能表征上比视觉更高效,语言边界就是世界边界 [7] - 训练语言数据非常方便,互联网有海量语言数据,用语言训练比用视频便宜得多 [8] - 语言模型会形成抽象概念,当用多种语言训练时,模型在抽象空间解决问题然后表达出来 [9] - 模型概念与人类概念可能存在差异,特别是在与物理世界紧密相关的领域 [10] 对话二:多模态与世界模型的挑战 - 现代大语言模型如GPT-4已经是多模态模型,能接收和生成图像音频,但模态间迁移水平不尽如人意 [12] - 当前多模态处理通过VQ-VAE编码器,感觉不令人满意,需要更深入融合到模型中 [13] - 语言对多模态非常重要,离开语言视觉只是像素信号,语言赋予视觉对象语义含义 [14] - 现代大语言模型在某种程度上就是世界模型,文本数学方面表现优异,但作为物理模型表现不如语言模型 [14] - 通过架构改进、更好数据将弥合世界模型与语言模型差距,Sora等模型显示正在取得重大进展 [15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔" - Transformer发明时已考虑自动化编程,认为比处理任意对话更容易 [17] - 语言模型将覆盖大量编程工作,但数学和编程语言是比纯自然语言更好的沟通工具 [19] - 未来复杂系统级软件需要专业程序员使用Copilot模式,应用软件可由大众用户自然语言编程完成 [20] - 编程重点在于沟通和抽象,不一定需要新编程语言,可以使用现有语言但要用得非常好 [20] - 新编程语言需求来自新计算架构,而非AI编程需求 [20] 对话四:Agent的泛化困境:是方法问题,还是根本限制 - Agentic Model缺乏坚实技术实体,指推理过程中调用外部工具的推理模型 [21] - 问题在于使用未经训练工具时缺乏学习信号,效果不好 [22] - 强化学习可泛化到更大系统,但需要训练期间接触所有工具,目前难以实现 [22] - 需要更多工作让系统可训练,即使没有太多训练也可能非常有用 [23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖 - 预训练Scaling Law和强化学习Scaling Law不完全是一回事,有不同限制 [25] - 预训练Scaling Law存在经济限制,离经济极限不远,可将大模型蒸馏成更小模型 [25] - 推理模型不增加参数数量,让模型运行更长时间会变得更好,但有架构限制 [27] - 推理Scaling Law与预训练Scaling Law有非常不同限制,呼唤新研究和不同架构 [28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异 - 具身智能将更接近当前LLM,物理世界数据比互联网少,但数据效率在提高 [29] - 需要从多模态模型开始,加入RL训练,允许模型在行动前进行推理 [30] - 现实障碍是推理速度太慢,需要层级式架构输出动作 [30] - 第一个版本建立在现有成果上做调整,之后会有新一代更高效模型 [31] 对话七:强化学习:是超级优化器,还是科学发现的引擎 - 推理模型看作新架构,有思维链推理过程,用强化学习方式可行 [32] - RL数据效率高得多,可从有限数据中学习,如1000道数学题 [33] - RL只得到一个奖励,没有约束,能很好优化就可以学习 [33] - 处于范式早期阶段,需要尝试发现改进才能更高效 [34] 对话八:AI的组织跃迁:如何实现大规模Agent协作 - 最大挑战是开发下一代推理模型,需要Transformer创新级别的推理模型 [35] - 需要更多并行性,不能等模型思考一周才得到奖励 [36] - 需要为并行过程提供更多信号,结合架构融入并行过程 [36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远 - 推理模型可使用工具访问记忆,通过RL训练会学得很好 [37] - 工具方式解决记忆问题对于大多数情况足够好,模型能区分互联网记忆和自己记忆 [37] - 未来架构可能做得更好,但目前有可行解决方案 [38] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习 - 利用上下文作为持续学习记忆是进展,但效率不高 [39] - 记忆工具正在出现,模型在推理中访问记忆 [40] - LoRA模块等经济方式修改权重已更可行,每个人可微调自己模型 [40] - 需要更优雅方式实现持续学习,涉及实践和研究考量 [41]