开源模型
搜索文档
阿里巴巴,突发利好!
中国基金报· 2025-12-10 23:54
核心事件与市场反应 - 有消息称Meta首席执行官马克·扎克伯格亲自介入AI工作,推动公司转向开发可盈利的AI模型,此消息与阿里巴巴股价异动相关 [4] - 12月10日晚间,阿里巴巴美股盘前直线拉升,开盘后维持约2%的涨幅 [2] - 截至报道时,阿里巴巴股价最新报159.63美元,较前收盘价155.96美元上涨3.67美元,涨幅达2.35% [4] - 当日成交量为414.83万股,成交额为6.61亿美元 [4] Meta的AI战略转向 - Meta预计在明年春天推出一款代号为“Avocado”的新AI模型,该模型很可能以“闭源”形式推出,对外出售使用权 [5] - 此举标志着Meta与多年来大力宣扬的开源战略发生重大背离,转向与谷歌和OpenAI一致的商业路线 [5] - 战略转向源于其开源模型Llama 4的表现令硅谷和扎克伯格感到失望,导致部分项目人员被边缘化 [5] - 公司新任首席AI官Alexandr Wang倾向于支持闭源模型 [5] 团队重组与技术研发 - 扎克伯格亲自挖角顶尖AI研究人员和负责人,部分人获得了数亿美元级别、为期多年的薪酬方案 [5] - 新加入的成员被集中到一个名为TBD Lab的团队中,扎克伯格将大量时间和精力投入与该团队的合作 [5] - TBD Lab在训练新模型“Avocado”时,正使用包括谷歌Gemma、OpenAI的gpt-oss以及阿里巴巴通义千问(Qwen)在内的多家第三方竞争对手模型进行“蒸馏” [6] - 使用中国技术(阿里巴巴通义千问)训练新模型,标志着扎克伯格在态度上的微妙转变 [6] 行业背景与竞争格局 - 有行业观点认为,Llama和其他美国在AI开源领域的努力已开始落后 [6] - 英伟达公司首席执行官黄仁勋本月早些时候表示:“中国在开源领域遥遥领先——远远领先。” [6]
阿里巴巴 突发利好!
中国基金报· 2025-12-10 23:49
Meta AI战略重大转向 - Meta首席执行官扎克伯格亲自介入并推动公司AI战略转向,重点开发可商业化盈利的闭源AI模型,此举与公司长期宣扬的开源战略形成重大背离 [2] - 新AI模型代号为“Avocado”,预计将于明年春天亮相,很可能以闭源形式推出,由Meta严格控制并对外出售使用权 [2] - 为推进新战略,扎克伯格挖角顶尖AI人才组建名为TBD Lab的新团队,并为部分人员提供数亿美元级别、为期多年的薪酬方案 [3] 新模型“Avocado”的技术开发 - TBD Lab团队在训练“Avocado”模型时,采用模型“蒸馏”技术,使用了包括谷歌Gemma、OpenAI的gpt-oss以及阿里巴巴通义千问(Qwen)在内的多家第三方模型 [3] - 使用中国阿里巴巴的通义千问技术来训练新模型,标志着扎克伯格在技术态度上的微妙转变 [4] 行业背景与竞争格局 - Meta转向闭源模型的路线与其竞争对手谷歌和OpenAI的做法保持一致 [2] - 行业观点认为,在开源AI领域,中国已处于领先地位,英伟达首席执行官黄仁勋表示“中国在开源领域遥遥领先——远远领先” [4] - Meta此前发布的开源模型Llama 4表现未达预期,令硅谷和扎克伯格感到失望,直接促成了此次战略转向 [3] 市场反应与公司动态 - 受Meta使用阿里巴巴通义千问技术训练新模型的消息影响,阿里巴巴美股盘前直线拉升,开盘后维持2%左右的涨幅 [2] - Meta新任首席AI官Alexandr Wang倾向于支持闭源模型 [2] - 在Llama 4发布后,扎克伯格将部分参与该项目的人员边缘化 [3]
阿里巴巴,突发利好!
中国基金报· 2025-12-10 23:44
文章核心观点 - Meta公司首席执行官马克·扎克伯格亲自介入并推动公司AI战略转向,从开源转向开发名为“Avocado”的闭源商业模型,以寻求盈利,并在模型训练中使用了包括阿里巴巴通义千问在内的多家第三方模型[7][8] 市场反应与公司数据 - 消息影响下,阿里巴巴美股盘前直线拉升,开盘后维持约2%的涨幅[2] - 阿里巴巴美股当日开盘价为159.64美元,前一日收盘价为155.96美元[3] - 阿里巴巴总市值为3808.25亿美元,总股本为23.86亿股[6] - 当日成交量为414.83万股,成交额为6.61亿美元[6] Meta公司AI战略转向 - Meta战略出现重大转向,从多年大力宣扬的开源战略转向开发闭源模型“Avocado”,预计明年春天亮相,此举与谷歌和OpenAI路线一致[7] - 战略转向的直接原因是其开源模型Llama 4的表现令硅谷和扎克伯格感到失望[8] - 公司新任首席AI官Alexandr Wang倾向于支持闭源模型[8] 团队重组与资源投入 - 扎克伯格将部分参与Llama项目的人员边缘化,并亲自出面挖角顶尖AI研究人员和负责人[8] - 新招募的部分人员获得了数亿美元级别、为期多年的薪酬方案[8] - 新加入的人员被集中到名为TBD Lab的团队中,扎克伯格将大量时间和精力花在与该团队密切合作上[8] 模型训练与技术合作 - TBD Lab团队在训练新模型“Avocado”时,采用了“蒸馏”方法,使用了包括谷歌Gemma、OpenAI的gpt-oss以及阿里巴巴通义千问在内的多家第三方竞争对手模型[8] - 使用中国技术(阿里巴巴通义千问)训练新模型,标志着扎克伯格在态度上的微妙转变[8] - 英伟达首席执行官黄仁勋曾表示,中国在开源领域遥遥领先[8]
Meta全力转向闭源模型:引入谷歌、OpenAI及阿里技术成果
新浪财经· 2025-12-10 22:52
公司战略转向 - Meta首席执行官马克・扎克伯格开始亲自介入日常运营工作,并推动公司战略重心转向可实现商业化变现的人工智能模型 [4] - 公司彻底背离其多年来标榜的开源战略,转向与谷歌和OpenAI一致的闭源模型运营策略 [4] - 公司人工智能战略发生重大转向,起因是今年早些时候推出的开源模型Llama 4表现令人失望 [5] 新产品与研发 - 一款代号为Avocado的全新模型预计将于明年春季正式推出,且大概率会以闭源模式面市 [4] - 在Avocado模型的训练过程中,引入了多款第三方模型的技术成果,对包括谷歌的Gemma模型、OpenAI的gpt-oss,以及阿里巴巴的通义千问模型在内的竞品技术进行了提炼整合 [6] - 闭源模式下模型可被严格管控,Meta能够通过授权使用的方式进行销售 [4] 团队与组织变动 - 扎克伯格将Llama 4项目的部分核心成员调离核心岗位 [5] - 扎克伯格亲自出面招揽顶尖人工智能研究人才与团队负责人,为部分人选开出了数亿美元的多年期薪酬方案 [5] - 新任人工智能首席官Alexandr Wang是闭源模型的坚定支持者,其通过一笔价值143亿美元的投资交易加盟Meta [4][5] - 新团队隶属于一个名为TBD Lab的部门,扎克伯格的大量时间与精力都投入到与该新团队的协作中 [5]
20个企业级案例揭示Agent落地真相:闭源模型吃掉85%,手搓代码替代LangChain
36氪· 2025-12-10 20:12
核心观点 - 加州大学伯克利分校发布AI Agent领域迄今最大规模实证研究,基于306名从业者调研及20个企业级案例,覆盖26个行业,揭示了生产级AI Agent的部署现状、技术选择与核心挑战 [1] 部署动机与首要场景 - 73%的从业者部署Agent的首要目的是提高生产力 [2] - 其他主要动机包括:63.6%为减少人工工时,50%为自动化常规劳动 [4] - 相比之下,质性收益如风险规避(12.1%)和加速故障响应(18.2%)排名靠后 [4] - 部署优先考虑能带来直接、可量化回报的场景 [6] - 金融与银行业是Agent应用第一大战场,占比39.1%,其次是科技(24.6%)和企业服务(23.2%) [9] 应用角色与用户 - Agent的角色类似人类的“超级实习生”,深入严肃的商业流程,已走出写代码或聊天机器人范畴 [8][9] - 92.5%的Agent直接服务于人类用户,其中52.2%服务于企业内部员工 [11] - 仅7.5%的Agent服务于其他软件系统,Agent间全自动交互尚不成熟 [11] - 66%的生产系统允许分钟级或更长的响应时间,因相比人类工时仍是巨大效率提升,开发重心在质量与可靠性而非极限低延迟 [11] 技术选型与构建哲学 - 生产级AI Agent构建哲学是“大道至简”,优先选择简单、可控、可维护的技术路径 [12] - 模型选择上闭源是绝对主流:在20个深度案例中,85%(17个)使用了闭源模型,首选Anthropic的Claude系列和OpenAI的GPT系列 [13] - 选择闭源的核心逻辑是效率,对于辅助专家的场景,推理成本相比人力成本可忽略不计 [13] - 开源模型被视为特定场景补充,主要用于大规模高推理场景下的成本效益考量或受法规限制的数据隐私场景 [13] - 70%的案例直接使用现成模型,完全不进行权重微调,学术界热衷的微调和强化学习极少使用 [13] - 从业者精力集中于构建Prompt:78%的系统采用全手动或手动+AI辅助方式构建生产环境Prompt,12%的Prompt超过10,000个Token [16] 系统设计与自主性约束 - 为降低不可控性,Agent自主性被严格限制:68%的系统在需要人工干预前执行步骤不超过10步,47%的系统少于5步 [17] - 限制步数的主要原因包括保证可靠性、控制API调用成本以及控制延迟 [19] - 80%的案例采用预定义的静态工作流,Agent在固定流程内做决定,不能发明新步骤 [19] - 尽管60%的问卷调查者表示愿意用第三方框架,但在实际案例中,85%的团队选择完全自研,直接调模型API,以获得完全控制权并减少依赖臃肿 [19][20] 评估方法与基准测试 - 基准测试参考价值低:75%的团队完全不使用公开学术榜单,因企业业务高度特殊 [21] - 剩余25%的团队从零开始构建自定义基准 [21] - 人工循环验证是主导评估方法,被74.2%的从业者采用 [21] - 在开发阶段,领域专家直接审查输出正确性、安全性和可靠性;在运行阶段,人类作为最终决策者和安全护栏 [23] - 自动化评估也有应用:51.6%的团队使用LLM作为裁判,但所有团队都结合了人工验证,典型做法是LLM评分后高分自动通过、低分转人工,同时人工定期抽查高分样本 [25] 核心挑战与应对策略 - 可靠性是头号挑战:37.9%的人将“核心技术问题”(可靠性、鲁棒性)列为头号挑战,远超合规性(17.2%)和治理问题(3.4%) [26] - 可靠性挑战源于基准难建、测试难做(传统单元测试失效)以及反馈延迟 [27] - 安全与合规性问题通常通过“约束设计”解决,常见方法包括:限制Agent为只读操作、使用沙盒环境、构建API封装层限制抽象层、尝试实施权限控制 [27] - 系统能上线的答案是“约束性部署”,具体模式包括环境约束(如沙盒)和自主性约束(如限制步骤与预定义流程) [28] - 仅利用现有前沿大模型和相对简单的提示工程技术,就足以在超过26个不同行业中创造可观、可量化的商业价值 [29]
100万亿Token揭示今年AI趋势,硅谷的这份报告火了
36氪· 2025-12-09 11:21
开源与闭源模型格局演变 - 开源模型使用量稳步增长,预计到2025年底将达到总用量的约三分之一,与闭源模型形成互补关系而非零和博弈 [5][7] - 中国开源模型成为增长主要引擎,其每周Token使用量占比从2024年底的1.2%最高激增至30%,平均占比为13% [5][9] - 开源模型市场从高度集中转向多元化,2025年上半年DeepSeek V3和R1占开源用量一半以上,但预计到年底没有单一模型能持续占比超25%,市场将由5-7个模型均分 [12] 模型形态与市场偏好变化 - 中型模型(参数在150亿至700亿之间)更受市场青睐,小模型(参数少于150亿)正在失宠,市场分化为强大的中型模型类别或整合到最强大的单个大型模型上 [15] - 开源模型不再被视为闭源“平替”,而是找到了特定场景的首选定位,开发者往往同时使用两类模型 [7] 推理模型与工具调用成为新范式 - 模型正从“语言生成系统”转变为“推理执行系统”,使用推理的Token用量从年初可忽略不计增长至超过50% [5][18] - 在所有推理模型中,xAI的Grok Code Fast 1使用的推理流量份额最大,领先于Gemini 2.5 Pro和Gemini 2.5 Flash [19] - 模型调用工具的功能使用占比上升,从最初集中于GPT-4o-mini和Claude 3.5/3.7系列,发展到更多模型支持,Claude 4.5 Sonnet等新玩家取得显著进展 [24] AI主要应用场景与使用方式演变 - 编程和角色扮演是AI模型的主要使用方式,编程查询用量从年初的11%上涨至最近的超50% [6][33] - 在所有编程模型中,Claude系列长期占据主导地位,大部分时间占比超过60%,但其在2025年11月市场份额首次跌破60% [36] - 在开源模型中,角色扮演使用量占比高达52%,中国开源模型DeepSeek的流量中有超过三分之二用于角色扮演和闲聊 [40] - 用户使用模式变复杂,从“写短文”到“解难题”,平均每次提示词长度增加约4倍,完成任务所需Token用量增加近3倍 [26][27][30] - 模型正变成“自动Agent”,用户给出复杂目标后,模型能自行规划步骤、调用工具并在长对话中保持状态以完成任务 [33] 主要厂商模型的应用侧重 - Anthropic模型80%以上流量用于编程和技术任务 [43] - xAI模型同样专注于编程,其技术应用、角色扮演及学术用途在2025年11月下旬显著增长 [47] - Qwen模型主要发力编程端,角色扮演和科学类任务占比随时间波动 [51] - OpenAI模型的工作重点从娱乐休闲活动逐渐转向编程和技术类任务 [53] 用户留存呈现“水晶鞋效应” - 大部分用户会快速流失,但每一代前沿AI模型发布时,会锁定一小批任务需求与其新能力完美匹配的“天选用户”,形成高粘性 [57] - 典型案例如Claude 4 Sonnet和Gemini 2.5 Pro,发布5个月后用户留存率仍保持40%高水平 [57] - “水晶鞋效应”窗口期很短,基本只在模型刚发布被视为“最前沿”的那段时间,一旦竞品发布抹平能力差距,再吸引新用户将非常困难 [57][60] 区域市场与语言使用变化 - AI不再是硅谷独角戏,亚洲地区付费使用量占比从13%翻倍至31% [61] - 北美仍是最大市场,但份额已不足50% [61] - 英语以82%份额占据绝对主导,简体中文以近5%份额位居第二 [61] 模型定价与使用量的关系 - 模型价格下降对使用量的影响比想象中小,价格下降10%,使用量仅增加0.5%-0.7% [61] - 存在“杰文斯悖论”,当模型变得足够便宜且好用,人们会在更多地方、用更长上下文、更频繁地调用,导致总Token用量飙升,总支出可能并不降低 [61]
100万亿Token揭示今年AI趋势!硅谷的这份报告火了
新浪财经· 2025-12-08 20:28
报告核心观点 - 基于对OpenRouter平台自2024年11月至2025年11月超过100万亿Token使用量的分析,报告揭示了AI行业的发展趋势,核心观点包括开源模型与闭源模型形成互补、中国开源模型影响力显著提升、模型使用范式向推理与工具调用转变、编程与角色扮演成为主要应用场景以及用户留存呈现“水晶鞋效应”等 [3][5][6][70] 开源与闭源模型格局演变 - 开源模型使用量持续增长,预计到2025年底将达到总使用量的约三分之一,与闭源模型形成互补关系,而非简单的替代关系 [5][6][71] - 开源模型已找到独特定位,成为特定场景的首选,开发者倾向于同时使用开源和闭源两类模型 [6][71] - 中国开源模型成为增长主要引擎,其每周Token使用量占比从2024年底的1.2%最高激增至30%,平均占比为13%,而其他地区开源模型的平均份额为13.7% [2][7][10][74] - 开源模型市场格局从高度集中转向多元化,2025年上半年DeepSeek V3和R1占据一半以上份额,但下半年随着MiniMax M2、Kimi K2、GPT-OSS等模型发布,市场趋于分散,预计年底没有单一模型能持续占据超过25%的Token用量,市场将由5到7个模型均分 [13][77] 模型形态与架构趋势 - 开源模型形态发生变化,中型模型(参数在150亿到700亿之间)更受市场青睐,小模型(参数少于150亿)正在失宠,市场分化为强大的中型模型类别或整合到最强大的单个大型模型(参数为700亿或更多)上 [16][20][80][85] - 语言模型正从“语言生成系统”转变为“推理执行系统”,使用推理功能的Token用量从年初可忽略不计增长至超过50% [7][18][83] - 在所有推理模型中,马斯克xAI旗下的Grok Code Fast 1使用的推理流量份额最大,领先于Gemini 2.5 Pro和Gemini 2.5 Flash,而几周前Gemini 2.5 Pro还是主力 [21][86] - 模型调用工具的功能使用占比上升,年初该功能集中于GPT-4o-mini和Claude 3.5/3.7系列,年中后更多模型开始支持,生态系统更具竞争性,9月底后Claude 4.5 Sonnet、Grok Code Fast和GLM 4.5等新玩家取得进展 [24][89] 主要应用场景与使用方式 - 编程和角色扮演是AI模型的两大主要使用方式 [7][32][70] - 编程类查询的用量从年初的11%上涨至最近的超过50%,增长最为稳定 [32][97] - 在编程模型领域,Claude系列长期占据主导地位,大部分时间占比超过60%,但到2025年11月其市场份额首次跌破60% [35][100] - 同期,OpenAI在编程领域的市场份额从2025年7月的约2%增长至近几周的约8%,谷歌市场份额稳定在约15%,开源模型如Qwen、Mistral份额稳步提升,其中MiniMax被特别提及为快速崛起的新秀 [35][100] - 在开源模型中,角色扮演的使用量占比达到52%,几乎与编程持平,中国开源模型与西方开源模型在该领域平分秋色 [38][103] - DeepSeek的流量中有超过三分之二是角色扮演和闲聊,显示了其在消费者端的高粘性 [38][103] 主流模型的使用偏好 - Anthropic(Claude)超过80%的流量用于编程和技术任务,是主要的程序员工具 [41][106] - 谷歌模型用途相对宽泛,涵盖法律、科学、技术和常识性查询 [44][109] - 马斯克旗下的xAI同样专注于编程,其技术应用、角色扮演及学术用途在2025年11月下旬显著增长 [47][112] - OpenAI的使用重点随时间从娱乐休闲活动逐渐转向编程和技术类任务 [50][115] - Qwen模型同样发力编程端,角色扮演和科学类任务的使用量随时间有所波动 [52][117] 用户行为与市场动态 - 用户留存呈现“水晶鞋效应”,即新模型发布时若能完美解决特定痛点,就能锁定一批高粘性用户,例如Claude 4 Sonnet和Gemini 2.5 Pro发布5个月后用户留存率仍保持40% [7][55][120] - “水晶鞋效应”的窗口期很短,仅在模型刚发布被视为最前沿时有效,一旦竞品发布、能力差距被抹平,则难以再吸引新用户 [58][59][122][123] - 模型任务复杂度提升,从“写短文”变为“解难题”,用户平均每次提示词长度增加了约4倍,且由于推理消耗更多Token,完成任务所需的总Token用量增加了近3倍 [27][29][92][94] - 模型正演变为“自动Agent”,用户给出复杂目标后,模型能自行规划步骤、调用工具并维持对话状态以完成任务,从“聊天机器人”转变为“智能Agent” [32][97] - 模型价格下降对使用量的影响有限,价格下降10%仅带来使用量0.5%至0.7%的增长 [65][129] - 存在“杰文斯悖论”,即模型降价后,因使用更频繁、上下文更长,总Token消耗可能飙升,总支出未必降低 [60][124][125] 区域与语言市场变化 - AI使用不再是硅谷独角戏,亚洲地区的付费使用量占比从13%翻倍至31% [65][129] - 北美仍是最大市场,但份额已不足50%,地位相对下降 [65][129] - 英语以82%的份额占据绝对主导,简体中文以近5%的份额位居第二 [65][129]
100万亿Token揭示今年AI趋势!硅谷的这份报告火了
量子位· 2025-12-08 19:36
文章核心观点 - 基于对OpenRouter平台超过100万亿Token使用数据的实证分析,揭示了2025年AI行业的发展趋势,核心结论包括开源与闭源模型关系转变为互补、中国开源模型力量崛起、模型功能向推理与执行系统演进、编程与角色扮演成为主要应用场景以及用户留存呈现“水晶鞋效应”等[1][8][12] 开源与闭源模型格局演变 - 开源模型不再是闭源模型的廉价替代品,两者关系已演变为互补,开发者常同时使用两类模型[9][10] - 开源模型使用量稳步增长,预计到2025年底将占据约三分之一的Token用量[10][12] - 开源模型市场从高度集中走向多元化,早期DeepSeek V3和R1曾占一半以上用量,但预计到2025年底,没有单一模型能持续占比超25%,市场将由5~7个模型均分[16][17][18] - 中型模型(参数在150亿到700亿之间)更受市场青睐,小模型正在失宠,市场分化为强大的中型模型类别或整合到最强大的单个大型模型上[20][21] 中国开源模型崛起 - 中国开源模型成为增长主要引擎,其每周Token使用量占比从2024年底的1.2%最高激增至30%,平均占比为13%,与其他地区开源模型平均13.7%的份额相当[12][13] - 中国模型如DeepSeek、MiniMax、Kimi K2等在开源领域受到青睐,其中DeepSeek在角色扮演和闲聊领域有极高粘性,超过三分之二的流量用于此[1][16][50] - 在编程领域,中国模型如MiniMax已成为快速崛起的新秀,近几周取得显著增长[48] 模型功能与使用范式转变 - 语言模型正从对话系统升级为推理与执行系统,使用推理功能的Token用量从年初可忽略不计增长至超过50%[22] - 模型调用工具的功能使用占比上升,从年初集中于少数模型发展到更多模型支持,缺乏可靠工具的模型有落后风险[29][30][31][33] - 用户任务复杂度提升,从生成短文转向解决难题,如分析完整文档或代码库[35] - 用户平均每次提示词长度增加约4倍,模型完成任务所需Token用量增加近3倍,反映出工作负载更依赖上下文且推理消耗更多[36][39] - AI正从聊天机器人转变为能独立规划步骤、调用工具并完成复杂目标的自动智能体(Agent)[42][43] 主要应用场景与模型偏好 - 编程和角色扮演是AI模型最主要的使用方式[12][44] - 编程查询的Token用量从年初的11%上涨至最近的超过50%,增长最为稳定[45] - 在编程领域,Claude系列长期占据主导地位,大部分时间占比超过60%,但其份额在2025年11月首次跌破60%[47] - OpenAI在编程领域的市场份额从2025年7月的约2%增长至近几周的约8%,谷歌份额稳定在约15%[47][48] - 在角色扮演领域,开源模型中其使用量占比高达52%,中国与西方开源模型在该领域平分秋色[50] 用户行为与留存特征 - 用户留存呈现“水晶鞋效应”,即新模型发布时若能完美解决特定用户痛点,便能锁定一批高粘性用户,即使后续有更好模型也难以被替换[12][67] - 例如,Claude 4 Sonnet和Gemini 2.5 Pro发布5个月后用户留存率仍保持40%高位[67] - 该效应窗口期很短,仅在模型被视为“最前沿”时有效,一旦竞品能力赶超则难以吸引新用户[69][70] - 用户留存模式可分为:成功锁定(如Claude、GPT-4o Mini)、从未合脚(如Gemini 2.0 Flash)、回旋镖效应(用户离开后因性价比或特定能力又回归,如DeepSeek)[74] 市场与区域动态 - AI不再是硅谷独角戏,亚洲地区付费使用量占比从13%翻倍至31%[71] - 北美仍是最大市场,但份额已不足50%[80] - 英语以82%的份额占据绝对主导,简体中文以近5%的份额位居第二[80] 其他关键发现 - 模型价格下降对使用量的影响有限,价格下降10%仅带来0.5%-0.7%的使用量增长[80] - 存在“杰文斯悖论”现象,即模型降价且好用后,用户会在更多场景更频繁地调用,导致总Token用量飙升,总支出可能并未降低[75][76] - 报告数据主要反映开发者与服务端API调用行为,未涵盖通过App或Web直接访问的流量,且平台定价策略可能影响数据代表性[76]
a16z 100万亿Token研究揭示的真相:中国力量重塑全球AI版图
36氪· 2025-12-08 16:33
报告核心观点 - 基于超过100万亿个真实生产环境Token数据的实证研究,揭示了AI领域正经历三大根本性转变:从单一模型竞争走向多元化生态系统;从简单文本生成迈向智能体推理范式;从西方中心向全球分布式创新格局演进 [3] 行业范式转变:从文本预测到机器思考 - 2024年12月5日OpenAI发布o1模型,标志着AI从“模式补全”转向“结构化内部认知”的关键转折点,该模型引入了扩展的推理时计算过程,包含内部多步思考、潜在规划和迭代优化 [6] - 推理优化模型所处理的Token量已从近乎零增长至占总量的50%以上,意味着半数以上的AI交互不再是简单问答,而是涉及多步思考、状态管理和工具调用的复杂过程 [4][18] - 交互序列长度显著增加,平均输入Token数从约1,500增长到超过6,000,输出Token数也从150左右增加到约400,反映了用户正在将更复杂的上下文交给AI处理 [20] 市场格局重塑:开源崛起与多元化竞争 - 开源模型使用量显著上升,打破了少数闭源巨头主导的市场格局,其中中国开源力量崛起尤为引人注目,其周使用量占比从2024年底的1.2%跃升至2025年后期某些周度的近30% [4][7][9] - 截至2025年底,开源模型市场呈现健康的多元化态势,没有任何单一开源模型能持续占据超过25%的市场份额,流量均匀分布在五到七个主要竞争者之间 [11] - 中型模型(参数规模在150亿至700亿之间)崛起,在能力与效率之间取得了更好的平衡,满足了大量实际应用场景的需求 [12] 主要参与者与市场份额 - 根据2024年11月至2025年11月的总Token使用量,DeepSeek以14.37万亿Token位居榜首,其次是Qwen(5.59万亿)、Meta LLaMA(3.96万亿)、Mistral AI(2.92万亿)和OpenAI(1.65万亿) [12] - 中国模型提供商如Minimax(1.26万亿)、Z-AI(1.18万亿)、Moonshot AI(0.92万亿)也进入了前十名,显示出中国在全球AI版图中的重要地位 [12] 应用场景分化:从生产力到情感陪伴 - 超过一半(约52%)的开源模型使用量流向了角色扮演、故事创作等创意对话场景,这一比例甚至超过了编程辅助,揭示了AI作为情感伙伴与创作引擎的巨大需求 [4][15] - 编程相关的查询量在2025年实现了稳定增长,从年初占总Token量的约11%攀升至年底的超过50%,成为推动输入Token增长的主要动力 [4][17][20] - 编程相关的提示平均长度是其他类别的3-4倍,且增长速率更快,表明软件开发者正以激进的方式探索AI能力的边界 [20] 全球化与区域市场动态 - 亚洲在全球AI使用量中的份额已从约13%显著提升至31%,反映了该区域企业采纳AI技术的加速和本地创新生态的成熟 [23] - 按大洲划分,北美以47.22%的份额领先,亚洲(28.61%)和欧洲(21.32%)紧随其后 [24] - 按国家/地区划分,美国以47.17%的份额占据绝对主导,新加坡(9.21%)、德国(7.51%)、中国(6.01%)位列其后 [24] - 从语言分布看,英语仍占据主导地位(82.87%的Token使用),但中文(简体)以4.95%的占比成为第二大使用语言 [25] 定价策略与市场分层 - 高端市场由Anthropic的Claude系列和OpenAI的GPT系列等闭源模型主导,其每百万Token成本在2美元(Claude)至35美元(GPT-4/5)之间,但在关键业务场景中用户对性能和质量的要求超过对成本的敏感 [29] - 大众市场以Google Gemini Flash、DeepSeek V3等高效模型为代表,以低于0.4美元每百万Token的成本吸引了海量日常使用 [29] - 市场呈现出复杂的价值分层,而非简单的成本驱动,研究显示价格弹性较弱,降价10%仅能带来0.5-0.7%的使用量增加 [29] - “技术”类查询的平均成本显著高于其他所有类别,但使用量依然保持高位,反映了高复杂性、高价值任务的特殊需求 [32] 用户行为与留存模式 - 报告提出“灰姑娘水晶鞋”理论,即当新模型恰好满足一类长期存在的高价值工作负载需求时,会形成“完美契合”,产生强大的用户锁定效应 [33][34] - 数据支持该理论,例如Claude 4 Sonnet在2025年5月的用户群体,在五个月后依然保持了约40%的留存率,显著高于后续用户群体 [34] - DeepSeek模型展现出“回旋镖效应”,部分用户在尝试其他模型后,会重新回归DeepSeek,暗示其在某些特定能力维度上建立了难以替代的优势 [4][35] 未来竞争焦点 - 行业竞争焦点正从对单一“最佳模型”的追逐,转向构建灵活、多样、适应性强的模型生态系统 [36] - 未来竞争将进一步转向运营卓越性,包括精确衡量真实场景下的任务完成率、降低模型性能波动、使AI行为更好对齐生产环境实际需求等 [36] - 开源模型的持续进步正在对闭源市场构成“底线压力”,推动整个行业的技术进步和成本优化 [32]
“美国造个数据中心要三年,中国……”
观察者网· 2025-12-07 21:00
文章核心观点 - 英伟达首席执行官黄仁勋指出,美国在人工智能竞赛中面临基础设施(尤其是能源和建设速度)的严重瓶颈,而中国在能源、建设速度和开源生态方面具有显著优势,可能在未来反超美国 [1][2][4] AI产业分层与竞争格局 - 黄仁勋将AI产业简化为五层:能源、芯片、基础设施、模型和应用 [1] - 在能源层,中国拥有的能源是美国的**两倍**,且美国能源成本远高于中国,这制约了芯片工厂和AI数据中心的建设 [1] - 在芯片层,美国企业(如英伟达)拥有领先技术,但中国展现出巨大制造潜力,不可低估 [2] - 在基础设施层,美国建设数据中心耗时约**三年**,而中国建设速度极快(例如一个周末建好医院),美国面临重大挑战 [2] - 在模型层,美国在尖端模型上领先约**六个月**,但中国在开源模型方面遥遥领先,这对初创企业和研究至关重要 [4] - 在应用层,竞争胜负取决于谁能最先、最广泛地应用AI技术以实现自动化 [4] 中美AI发展现状对比 - 中国AI生态系统充满活力且极具创新性,全球约**50%**的AI研究人员是中国人,去年约**70%**的AI专利由中国发布 [4] - 由于美国市场限制,中国正将顶尖计算机科学家和强大软件开发能力投入自身体系建设,一旦建成将快速推广 [4] - 美国在AI热潮下面临数据中心建设困境,例如加州圣克拉拉有两座数据中心因无法供电已空置**数年** [5] - 在美国大部分地区,获取数据中心能源的前置等待时间约为**三年**,在硅谷等需求高地等待时间更长 [5] - 预计到**2035年**,仅美国AI计算的电力需求就可能**翻倍还不止**,电网老化、建设缓慢及监管障碍是主要瓶颈 [5]