水晶鞋效应
搜索文档
GPT-5.2实测:五大职场“牛马任务”,考验它的生存力
虎嗅APP· 2025-12-13 17:07
以下文章来源于快刀青衣 ,作者快刀青衣 快刀青衣 . 得到联合创始人,AI 学习圈主理人 产品经理出身,与罗胖脱不花创业十年 学习 AI, 使用 AI,只为解决问题 当时就有不少媒体猜测,他发警报的最终目的,其实是给这个新模型的宣传造势。但我们确实也能看 出,OpenAI在Gemini的强大攻势下,心态已经不像当初那么轻松了。 为什么这么说?从GPT-5.1到GPT-5.2,发布间隔只有30天。要知道,这可是OpenAI历史上迭代最快 的一次,以前这种级别的版本迭代,至少要一个季度才可以。 更关键的是,这次GPT-5.2主打的不是"通用智能""推理能力"这类高大上的概念,而是直截了当地 说:我们要强化"打工能力"。 什么是打工能力?就是你每天在办公室里干的活,比如做Excel表格、写PPT、改代码、回复客户邮 件。这次,OpenAI的很明确:先不谈理想和未来,先把大家手头的活干好再说。 一、30天迭代,为何这么急? 从GPT-5.1到GPT-5.2仅用30天,你可能觉得,版本号才涨了0.1,能有多大变化? 本文来自微信公众号: 快刀青衣 ,作者:快刀青衣,题图来自:AI生成 2015年12月11日,OpenA ...
100万亿Token揭示今年AI趋势,硅谷的这份报告火了
36氪· 2025-12-09 11:21
开源与闭源模型格局演变 - 开源模型使用量稳步增长,预计到2025年底将达到总用量的约三分之一,与闭源模型形成互补关系而非零和博弈 [5][7] - 中国开源模型成为增长主要引擎,其每周Token使用量占比从2024年底的1.2%最高激增至30%,平均占比为13% [5][9] - 开源模型市场从高度集中转向多元化,2025年上半年DeepSeek V3和R1占开源用量一半以上,但预计到年底没有单一模型能持续占比超25%,市场将由5-7个模型均分 [12] 模型形态与市场偏好变化 - 中型模型(参数在150亿至700亿之间)更受市场青睐,小模型(参数少于150亿)正在失宠,市场分化为强大的中型模型类别或整合到最强大的单个大型模型上 [15] - 开源模型不再被视为闭源“平替”,而是找到了特定场景的首选定位,开发者往往同时使用两类模型 [7] 推理模型与工具调用成为新范式 - 模型正从“语言生成系统”转变为“推理执行系统”,使用推理的Token用量从年初可忽略不计增长至超过50% [5][18] - 在所有推理模型中,xAI的Grok Code Fast 1使用的推理流量份额最大,领先于Gemini 2.5 Pro和Gemini 2.5 Flash [19] - 模型调用工具的功能使用占比上升,从最初集中于GPT-4o-mini和Claude 3.5/3.7系列,发展到更多模型支持,Claude 4.5 Sonnet等新玩家取得显著进展 [24] AI主要应用场景与使用方式演变 - 编程和角色扮演是AI模型的主要使用方式,编程查询用量从年初的11%上涨至最近的超50% [6][33] - 在所有编程模型中,Claude系列长期占据主导地位,大部分时间占比超过60%,但其在2025年11月市场份额首次跌破60% [36] - 在开源模型中,角色扮演使用量占比高达52%,中国开源模型DeepSeek的流量中有超过三分之二用于角色扮演和闲聊 [40] - 用户使用模式变复杂,从“写短文”到“解难题”,平均每次提示词长度增加约4倍,完成任务所需Token用量增加近3倍 [26][27][30] - 模型正变成“自动Agent”,用户给出复杂目标后,模型能自行规划步骤、调用工具并在长对话中保持状态以完成任务 [33] 主要厂商模型的应用侧重 - Anthropic模型80%以上流量用于编程和技术任务 [43] - xAI模型同样专注于编程,其技术应用、角色扮演及学术用途在2025年11月下旬显著增长 [47] - Qwen模型主要发力编程端,角色扮演和科学类任务占比随时间波动 [51] - OpenAI模型的工作重点从娱乐休闲活动逐渐转向编程和技术类任务 [53] 用户留存呈现“水晶鞋效应” - 大部分用户会快速流失,但每一代前沿AI模型发布时,会锁定一小批任务需求与其新能力完美匹配的“天选用户”,形成高粘性 [57] - 典型案例如Claude 4 Sonnet和Gemini 2.5 Pro,发布5个月后用户留存率仍保持40%高水平 [57] - “水晶鞋效应”窗口期很短,基本只在模型刚发布被视为“最前沿”的那段时间,一旦竞品发布抹平能力差距,再吸引新用户将非常困难 [57][60] 区域市场与语言使用变化 - AI不再是硅谷独角戏,亚洲地区付费使用量占比从13%翻倍至31% [61] - 北美仍是最大市场,但份额已不足50% [61] - 英语以82%份额占据绝对主导,简体中文以近5%份额位居第二 [61] 模型定价与使用量的关系 - 模型价格下降对使用量的影响比想象中小,价格下降10%,使用量仅增加0.5%-0.7% [61] - 存在“杰文斯悖论”,当模型变得足够便宜且好用,人们会在更多地方、用更长上下文、更频繁地调用,导致总Token用量飙升,总支出可能并不降低 [61]
100万亿Token揭示今年AI趋势!硅谷的这份报告火了
新浪财经· 2025-12-08 20:28
用百万亿Token揭示今年AI发展趋势,硅谷的这份报告火了! 无论是分析问题的角度,还是里面得出的一些结论,都被网友热烈讨论。 而且里面还公开肯定了中国开源模型,其每周Token用量占比一度高达30%。并且除了DeepSeek,编程领域的新秀MiniMax也被特意cue到。 这份报告由OpenRouter和a16z联合出品,标题为《State of AI:An Empirical 100 Trillion Token Study with OpenRouter》。 里面分析了自2024年11月至2025年11月,OpenRouter平台上300+模型的使用情况,涵盖GPT系列、Claude、Gemini、DeepSeek、Qwen、Kimi等国内外主 流开源与闭源模型。 一水 发自 凹非寺 量子位 | 公众号 QbitAI 而且统计的角度相当特别——不看各种基准得分,而是看模型的真实Token消耗量。 Token消耗量直接反映了模型被使用的方式和程度,因此比测试分数更能揭示其本质价值。 这一次,他们基于100万亿Token,在报告里得出了以下主要结论(省流版): 预计到年底,开源模型的使用量将达到约1/3,与 ...
100万亿Token揭示今年AI趋势!硅谷的这份报告火了
量子位· 2025-12-08 19:36
文章核心观点 - 基于对OpenRouter平台超过100万亿Token使用数据的实证分析,揭示了2025年AI行业的发展趋势,核心结论包括开源与闭源模型关系转变为互补、中国开源模型力量崛起、模型功能向推理与执行系统演进、编程与角色扮演成为主要应用场景以及用户留存呈现“水晶鞋效应”等[1][8][12] 开源与闭源模型格局演变 - 开源模型不再是闭源模型的廉价替代品,两者关系已演变为互补,开发者常同时使用两类模型[9][10] - 开源模型使用量稳步增长,预计到2025年底将占据约三分之一的Token用量[10][12] - 开源模型市场从高度集中走向多元化,早期DeepSeek V3和R1曾占一半以上用量,但预计到2025年底,没有单一模型能持续占比超25%,市场将由5~7个模型均分[16][17][18] - 中型模型(参数在150亿到700亿之间)更受市场青睐,小模型正在失宠,市场分化为强大的中型模型类别或整合到最强大的单个大型模型上[20][21] 中国开源模型崛起 - 中国开源模型成为增长主要引擎,其每周Token使用量占比从2024年底的1.2%最高激增至30%,平均占比为13%,与其他地区开源模型平均13.7%的份额相当[12][13] - 中国模型如DeepSeek、MiniMax、Kimi K2等在开源领域受到青睐,其中DeepSeek在角色扮演和闲聊领域有极高粘性,超过三分之二的流量用于此[1][16][50] - 在编程领域,中国模型如MiniMax已成为快速崛起的新秀,近几周取得显著增长[48] 模型功能与使用范式转变 - 语言模型正从对话系统升级为推理与执行系统,使用推理功能的Token用量从年初可忽略不计增长至超过50%[22] - 模型调用工具的功能使用占比上升,从年初集中于少数模型发展到更多模型支持,缺乏可靠工具的模型有落后风险[29][30][31][33] - 用户任务复杂度提升,从生成短文转向解决难题,如分析完整文档或代码库[35] - 用户平均每次提示词长度增加约4倍,模型完成任务所需Token用量增加近3倍,反映出工作负载更依赖上下文且推理消耗更多[36][39] - AI正从聊天机器人转变为能独立规划步骤、调用工具并完成复杂目标的自动智能体(Agent)[42][43] 主要应用场景与模型偏好 - 编程和角色扮演是AI模型最主要的使用方式[12][44] - 编程查询的Token用量从年初的11%上涨至最近的超过50%,增长最为稳定[45] - 在编程领域,Claude系列长期占据主导地位,大部分时间占比超过60%,但其份额在2025年11月首次跌破60%[47] - OpenAI在编程领域的市场份额从2025年7月的约2%增长至近几周的约8%,谷歌份额稳定在约15%[47][48] - 在角色扮演领域,开源模型中其使用量占比高达52%,中国与西方开源模型在该领域平分秋色[50] 用户行为与留存特征 - 用户留存呈现“水晶鞋效应”,即新模型发布时若能完美解决特定用户痛点,便能锁定一批高粘性用户,即使后续有更好模型也难以被替换[12][67] - 例如,Claude 4 Sonnet和Gemini 2.5 Pro发布5个月后用户留存率仍保持40%高位[67] - 该效应窗口期很短,仅在模型被视为“最前沿”时有效,一旦竞品能力赶超则难以吸引新用户[69][70] - 用户留存模式可分为:成功锁定(如Claude、GPT-4o Mini)、从未合脚(如Gemini 2.0 Flash)、回旋镖效应(用户离开后因性价比或特定能力又回归,如DeepSeek)[74] 市场与区域动态 - AI不再是硅谷独角戏,亚洲地区付费使用量占比从13%翻倍至31%[71] - 北美仍是最大市场,但份额已不足50%[80] - 英语以82%的份额占据绝对主导,简体中文以近5%的份额位居第二[80] 其他关键发现 - 模型价格下降对使用量的影响有限,价格下降10%仅带来0.5%-0.7%的使用量增长[80] - 存在“杰文斯悖论”现象,即模型降价且好用后,用户会在更多场景更频繁地调用,导致总Token用量飙升,总支出可能并未降低[75][76] - 报告数据主要反映开发者与服务端API调用行为,未涵盖通过App或Web直接访问的流量,且平台定价策略可能影响数据代表性[76]