水晶鞋效应 - 财报，业绩电话会，研报，新闻

水晶鞋效应

搜索文档

虎嗅APP· 2025-12-13 17:07

文章核心观点 - OpenAI在面临谷歌Gemini系列激烈竞争的压力下，以创纪录的30天速度迭代发布了GPT-5.2模型，其战略重心从追求通用智能转向强化解决实际办公任务的“打工能力”，旨在通过提升用户工作流嵌入度来巩固市场地位 [5][8][9] - GPT-5.2在知识工作场景（如金融建模、复杂客服、长文档处理）的能力有显著提升，并在衡量经济价值的GDPval测试中表现优异，表明AI正从“会做题”向“能干活”的实用主义方向进化 [11][21][29] - 模型在理解职场潜规则、复杂人际关系及文化语境方面展现出前所未有的能力，意味着AI开始理解人性与社会结构，正从工具向“懂你”的助手演变 [56][57] 一、30天迭代，为何这么急？ - 从GPT-5.1到GPT-5.2的发布间隔仅为30天，这是OpenAI历史上最快的重大版本迭代速度，以往此类迭代至少需要一个季度 [5] - 迭代加速的直接原因是应对竞争，谷歌发布Gemini 3 Pro后在多个测试中短暂领先，对OpenAI构成了危险信号，迫使公司采取“不能让对手喘息”的紧跟策略 [8] - 背后的核心逻辑是市场卡位战，行业护城河已转变为“水晶鞋效应”，即用户将产品深度嵌入工作流后会产生极高的替换成本，因此OpenAI急于通过提升实用性和用户体验来抢占和稳固市场 [9] 二、“打工能力”强化，强在哪？ - **投行分析师做Excel表**：在处理复杂财务模型（如三表联动、杠杆收购建模）时，GPT-5.2将准确率从GPT-5.1的59.1%提升至68.4%，这9个百分点的提升在金融建模领域意味着从“不能用”到“可以用”的质变 [15][16] - **客服处理复杂问题**：在处理涉及多步骤、多部门的复杂客户问题（如航班延误后的重新订票、住宿安排、赔偿申请）时，GPT-5.2能井井有条地管理整个任务链，在电话客服场景测试中准确率达到98.7% [18][19] - **打工人处理超长文档**：模型能够一次性处理相当于20万字小说的超长文档（如合同、产品手册），并在该测试中成为首个准确率接近100%的模型，能高效提取关键信息和总结要点 [20] 三、GDPval：以经济价值衡量AI - **测试设计**：OpenAI设计了名为GDPval的新测试，旨在衡量AI在创造真实经济价值的工作中的表现，测试选取了对美国GDP贡献最大的9个行业中的44种职业，设计了1320个真实工作任务 [22][24] - **评分方法**：由平均拥有14年从业经验的行业专家（来自Meta、微软、摩根士丹利、高盛、苹果等公司）对AI产出与人类专家产出进行盲测打分，标签分为“优于人类”、“与人类相当”、“逊于人类” [25][26] - **实战得分与意义**：GPT-5.2 Pro在GDPval测试中得分为74.1分，意味着在100个任务中，有74个任务的表现达到或超过了人类专家水平，同时AI完成任务的速度比人类快11倍，成本不到人类的1%，该测试标志着评估重点从“AI会不会做题”转向“AI能不能干活” [28][29] 四、职场“牛马任务”实测 - **包装琐事**：模型能将“整理文件、催交周报”等琐事包装为“深度参与公司数字化转型”和“打破部门间信息孤岛”，展示了其对职场价值重塑潜规则的理解 [34] - **解读老板意图**：能精准解读老板在群聊中模糊指令（如“不要用战术上的勤奋掩盖战略上的懒惰”）的真实意图，并生成既表明积极态度又巧妙规避无谓加班的回复，展现了高超的向上管理技巧 [35][36] - **应对功劳被抢**：在功劳被直属领导抢占的极端复杂场景下，模型能构思出既维护领导面子又暗示实际贡献者的回复，其思考时长达到5分02秒，表明其能权衡职场中微妙的权力关系 [43][44] - **优雅拒绝同事**：能生成既明确拒绝跨部门不合理请求，又不破坏人际关系的回复，核心技巧在于将拒绝包装成替对方考虑，并提供无实质帮助的替代方案 [45][46] - **酒桌敬酒艺术**：能在30秒内构思出包含自嘲幽默、展示成绩、归功领导、富有思想深度并能带动气氛的敬酒词，体现了对酒桌文化中“有趣、有料、有分寸”尺度的深刻理解 [49][50] 五、AI开始理解职场与人性 - 模型能力的进化体现在从无法理解中文“意思意思”等词汇，到能透彻理解“用战术上的勤奋掩盖战略上的懒惰”等复杂职场暗语，表明其理解能力已超越文字表面，触及背后的社会关系、权力结构和文化语境 [56] - 这种对人性及职场微妙之处的理解，使得AI开始从单纯的生产力工具向“懂你”的助手转变，其“打工能力”的内涵已扩展至帮助用户应对职场中的明枪暗箭和复杂人际问题 [57] - AI进化的长远方向可能是帮助人类处理复杂的沟通技巧后，反而促进人与人之间更直接、真诚的沟通，这代表了技术发展的一个深层社会意义 [58]

100万亿Token揭示今年AI趋势，硅谷的这份报告火了

36氪· 2025-12-09 11:21

开源与闭源模型格局演变 - 开源模型使用量稳步增长，预计到2025年底将达到总用量的约三分之一，与闭源模型形成互补关系而非零和博弈 [5][7] - 中国开源模型成为增长主要引擎，其每周Token使用量占比从2024年底的1.2%最高激增至30%，平均占比为13% [5][9] - 开源模型市场从高度集中转向多元化，2025年上半年DeepSeek V3和R1占开源用量一半以上，但预计到年底没有单一模型能持续占比超25%，市场将由5-7个模型均分 [12] 模型形态与市场偏好变化 - 中型模型（参数在150亿至700亿之间）更受市场青睐，小模型（参数少于150亿）正在失宠，市场分化为强大的中型模型类别或整合到最强大的单个大型模型上 [15] - 开源模型不再被视为闭源“平替”，而是找到了特定场景的首选定位，开发者往往同时使用两类模型 [7] 推理模型与工具调用成为新范式 - 模型正从“语言生成系统”转变为“推理执行系统”，使用推理的Token用量从年初可忽略不计增长至超过50% [5][18] - 在所有推理模型中，xAI的Grok Code Fast 1使用的推理流量份额最大，领先于Gemini 2.5 Pro和Gemini 2.5 Flash [19] - 模型调用工具的功能使用占比上升，从最初集中于GPT-4o-mini和Claude 3.5/3.7系列，发展到更多模型支持，Claude 4.5 Sonnet等新玩家取得显著进展 [24] AI主要应用场景与使用方式演变 - 编程和角色扮演是AI模型的主要使用方式，编程查询用量从年初的11%上涨至最近的超50% [6][33] - 在所有编程模型中，Claude系列长期占据主导地位，大部分时间占比超过60%，但其在2025年11月市场份额首次跌破60% [36] - 在开源模型中，角色扮演使用量占比高达52%，中国开源模型DeepSeek的流量中有超过三分之二用于角色扮演和闲聊 [40] - 用户使用模式变复杂，从“写短文”到“解难题”，平均每次提示词长度增加约4倍，完成任务所需Token用量增加近3倍 [26][27][30] - 模型正变成“自动Agent”，用户给出复杂目标后，模型能自行规划步骤、调用工具并在长对话中保持状态以完成任务 [33] 主要厂商模型的应用侧重 - Anthropic模型80%以上流量用于编程和技术任务 [43] - xAI模型同样专注于编程，其技术应用、角色扮演及学术用途在2025年11月下旬显著增长 [47] - Qwen模型主要发力编程端，角色扮演和科学类任务占比随时间波动 [51] - OpenAI模型的工作重点从娱乐休闲活动逐渐转向编程和技术类任务 [53] 用户留存呈现“水晶鞋效应” - 大部分用户会快速流失，但每一代前沿AI模型发布时，会锁定一小批任务需求与其新能力完美匹配的“天选用户”，形成高粘性 [57] - 典型案例如Claude 4 Sonnet和Gemini 2.5 Pro，发布5个月后用户留存率仍保持40%高水平 [57] - “水晶鞋效应”窗口期很短，基本只在模型刚发布被视为“最前沿”的那段时间，一旦竞品发布抹平能力差距，再吸引新用户将非常困难 [57][60] 区域市场与语言使用变化 - AI不再是硅谷独角戏，亚洲地区付费使用量占比从13%翻倍至31% [61] - 北美仍是最大市场，但份额已不足50% [61] - 英语以82%份额占据绝对主导，简体中文以近5%份额位居第二 [61] 模型定价与使用量的关系 - 模型价格下降对使用量的影响比想象中小，价格下降10%，使用量仅增加0.5%-0.7% [61] - 存在“杰文斯悖论”，当模型变得足够便宜且好用，人们会在更多地方、用更长上下文、更频繁地调用，导致总Token用量飙升，总支出可能并不降低 [61]

100万亿Token揭示今年AI趋势！硅谷的这份报告火了

新浪财经· 2025-12-08 20:28

报告核心观点 - 基于对OpenRouter平台自2024年11月至2025年11月超过100万亿Token使用量的分析，报告揭示了AI行业的发展趋势，核心观点包括开源模型与闭源模型形成互补、中国开源模型影响力显著提升、模型使用范式向推理与工具调用转变、编程与角色扮演成为主要应用场景以及用户留存呈现“水晶鞋效应”等 [3][5][6][70] 开源与闭源模型格局演变 - 开源模型使用量持续增长，预计到2025年底将达到总使用量的约三分之一，与闭源模型形成互补关系，而非简单的替代关系 [5][6][71] - 开源模型已找到独特定位，成为特定场景的首选，开发者倾向于同时使用开源和闭源两类模型 [6][71] - 中国开源模型成为增长主要引擎，其每周Token使用量占比从2024年底的1.2%最高激增至30%，平均占比为13%，而其他地区开源模型的平均份额为13.7% [2][7][10][74] - 开源模型市场格局从高度集中转向多元化，2025年上半年DeepSeek V3和R1占据一半以上份额，但下半年随着MiniMax M2、Kimi K2、GPT-OSS等模型发布，市场趋于分散，预计年底没有单一模型能持续占据超过25%的Token用量，市场将由5到7个模型均分 [13][77] 模型形态与架构趋势 - 开源模型形态发生变化，中型模型（参数在150亿到700亿之间）更受市场青睐，小模型（参数少于150亿）正在失宠，市场分化为强大的中型模型类别或整合到最强大的单个大型模型（参数为700亿或更多）上 [16][20][80][85] - 语言模型正从“语言生成系统”转变为“推理执行系统”，使用推理功能的Token用量从年初可忽略不计增长至超过50% [7][18][83] - 在所有推理模型中，马斯克xAI旗下的Grok Code Fast 1使用的推理流量份额最大，领先于Gemini 2.5 Pro和Gemini 2.5 Flash，而几周前Gemini 2.5 Pro还是主力 [21][86] - 模型调用工具的功能使用占比上升，年初该功能集中于GPT-4o-mini和Claude 3.5/3.7系列，年中后更多模型开始支持，生态系统更具竞争性，9月底后Claude 4.5 Sonnet、Grok Code Fast和GLM 4.5等新玩家取得进展 [24][89] 主要应用场景与使用方式 - 编程和角色扮演是AI模型的两大主要使用方式 [7][32][70] - 编程类查询的用量从年初的11%上涨至最近的超过50%，增长最为稳定 [32][97] - 在编程模型领域，Claude系列长期占据主导地位，大部分时间占比超过60%，但到2025年11月其市场份额首次跌破60% [35][100] - 同期，OpenAI在编程领域的市场份额从2025年7月的约2%增长至近几周的约8%，谷歌市场份额稳定在约15%，开源模型如Qwen、Mistral份额稳步提升，其中MiniMax被特别提及为快速崛起的新秀 [35][100] - 在开源模型中，角色扮演的使用量占比达到52%，几乎与编程持平，中国开源模型与西方开源模型在该领域平分秋色 [38][103] - DeepSeek的流量中有超过三分之二是角色扮演和闲聊，显示了其在消费者端的高粘性 [38][103] 主流模型的使用偏好 - Anthropic（Claude）超过80%的流量用于编程和技术任务，是主要的程序员工具 [41][106] - 谷歌模型用途相对宽泛，涵盖法律、科学、技术和常识性查询 [44][109] - 马斯克旗下的xAI同样专注于编程，其技术应用、角色扮演及学术用途在2025年11月下旬显著增长 [47][112] - OpenAI的使用重点随时间从娱乐休闲活动逐渐转向编程和技术类任务 [50][115] - Qwen模型同样发力编程端，角色扮演和科学类任务的使用量随时间有所波动 [52][117] 用户行为与市场动态 - 用户留存呈现“水晶鞋效应”，即新模型发布时若能完美解决特定痛点，就能锁定一批高粘性用户，例如Claude 4 Sonnet和Gemini 2.5 Pro发布5个月后用户留存率仍保持40% [7][55][120] - “水晶鞋效应”的窗口期很短，仅在模型刚发布被视为最前沿时有效，一旦竞品发布、能力差距被抹平，则难以再吸引新用户 [58][59][122][123] - 模型任务复杂度提升，从“写短文”变为“解难题”，用户平均每次提示词长度增加了约4倍，且由于推理消耗更多Token，完成任务所需的总Token用量增加了近3倍 [27][29][92][94] - 模型正演变为“自动Agent”，用户给出复杂目标后，模型能自行规划步骤、调用工具并维持对话状态以完成任务，从“聊天机器人”转变为“智能Agent” [32][97] - 模型价格下降对使用量的影响有限，价格下降10%仅带来使用量0.5%至0.7%的增长 [65][129] - 存在“杰文斯悖论”，即模型降价后，因使用更频繁、上下文更长，总Token消耗可能飙升，总支出未必降低 [60][124][125] 区域与语言市场变化 - AI使用不再是硅谷独角戏，亚洲地区的付费使用量占比从13%翻倍至31% [65][129] - 北美仍是最大市场，但份额已不足50%，地位相对下降 [65][129] - 英语以82%的份额占据绝对主导，简体中文以近5%的份额位居第二 [65][129]

Artificial Intelligence

Artificial Intelligence

100万亿Token揭示今年AI趋势！硅谷的这份报告火了

量子位· 2025-12-08 19:36

文章核心观点 - 基于对OpenRouter平台超过100万亿Token使用数据的实证分析，揭示了2025年AI行业的发展趋势，核心结论包括开源与闭源模型关系转变为互补、中国开源模型力量崛起、模型功能向推理与执行系统演进、编程与角色扮演成为主要应用场景以及用户留存呈现“水晶鞋效应”等[1][8][12] 开源与闭源模型格局演变 - 开源模型不再是闭源模型的廉价替代品，两者关系已演变为互补，开发者常同时使用两类模型[9][10] - 开源模型使用量稳步增长，预计到2025年底将占据约三分之一的Token用量[10][12] - 开源模型市场从高度集中走向多元化，早期DeepSeek V3和R1曾占一半以上用量，但预计到2025年底，没有单一模型能持续占比超25%，市场将由5~7个模型均分[16][17][18] - 中型模型（参数在150亿到700亿之间）更受市场青睐，小模型正在失宠，市场分化为强大的中型模型类别或整合到最强大的单个大型模型上[20][21] 中国开源模型崛起 - 中国开源模型成为增长主要引擎，其每周Token使用量占比从2024年底的1.2%最高激增至30%，平均占比为13%，与其他地区开源模型平均13.7%的份额相当[12][13] - 中国模型如DeepSeek、MiniMax、Kimi K2等在开源领域受到青睐，其中DeepSeek在角色扮演和闲聊领域有极高粘性，超过三分之二的流量用于此[1][16][50] - 在编程领域，中国模型如MiniMax已成为快速崛起的新秀，近几周取得显著增长[48] 模型功能与使用范式转变 - 语言模型正从对话系统升级为推理与执行系统，使用推理功能的Token用量从年初可忽略不计增长至超过50%[22] - 模型调用工具的功能使用占比上升，从年初集中于少数模型发展到更多模型支持，缺乏可靠工具的模型有落后风险[29][30][31][33] - 用户任务复杂度提升，从生成短文转向解决难题，如分析完整文档或代码库[35] - 用户平均每次提示词长度增加约4倍，模型完成任务所需Token用量增加近3倍，反映出工作负载更依赖上下文且推理消耗更多[36][39] - AI正从聊天机器人转变为能独立规划步骤、调用工具并完成复杂目标的自动智能体（Agent）[42][43] 主要应用场景与模型偏好 - 编程和角色扮演是AI模型最主要的使用方式[12][44] - 编程查询的Token用量从年初的11%上涨至最近的超过50%，增长最为稳定[45] - 在编程领域，Claude系列长期占据主导地位，大部分时间占比超过60%，但其份额在2025年11月首次跌破60%[47] - OpenAI在编程领域的市场份额从2025年7月的约2%增长至近几周的约8%，谷歌份额稳定在约15%[47][48] - 在角色扮演领域，开源模型中其使用量占比高达52%，中国与西方开源模型在该领域平分秋色[50] 用户行为与留存特征 - 用户留存呈现“水晶鞋效应”，即新模型发布时若能完美解决特定用户痛点，便能锁定一批高粘性用户，即使后续有更好模型也难以被替换[12][67] - 例如，Claude 4 Sonnet和Gemini 2.5 Pro发布5个月后用户留存率仍保持40%高位[67] - 该效应窗口期很短，仅在模型被视为“最前沿”时有效，一旦竞品能力赶超则难以吸引新用户[69][70] - 用户留存模式可分为：成功锁定（如Claude、GPT-4o Mini）、从未合脚（如Gemini 2.0 Flash）、回旋镖效应（用户离开后因性价比或特定能力又回归，如DeepSeek）[74] 市场与区域动态 - AI不再是硅谷独角戏，亚洲地区付费使用量占比从13%翻倍至31%[71] - 北美仍是最大市场，但份额已不足50%[80] - 英语以82%的份额占据绝对主导，简体中文以近5%的份额位居第二[80] 其他关键发现 - 模型价格下降对使用量的影响有限，价格下降10%仅带来0.5%-0.7%的使用量增长[80] - 存在“杰文斯悖论”现象，即模型降价且好用后，用户会在更多场景更频繁地调用，导致总Token用量飙升，总支出可能并未降低[75][76] - 报告数据主要反映开发者与服务端API调用行为，未涵盖通过App或Web直接访问的流量，且平台定价策略可能影响数据代表性[76]