Gemini 3 Flash
搜索文档
暴力上涨的token背后是裁员
小熊跑的快· 2026-03-15 21:14
AI模型周度使用量排名 - 根据OpenRouter平台数百万用户真实使用数据,截至2025年3月17日当周,模型调用量排名前三的分别是:MiniMax M2.5(1.82万亿tokens)、Step 3.5 Flash(1.3万亿tokens)、Gemini 3 Flash Preview与DeepSeek V3.2(均为1.01万亿tokens)[4] - 当周调用量排名第四至第八的模型分别为:Claude Sonnet 4.6(8750亿tokens)、Claude Opus 4.6(8040亿tokens)、Grok 4.1 Fast(5700亿tokens)、Gemini 2.5 Flash(5570亿tokens)[4] - 从周度使用量增长看,部分模型环比增速显著:Step 3.5 Flash增长193%,DeepSeek V3.2增长125%,Claude Sonnet 4.6增长130%,而MiniMax M2.5增长10%,Claude Opus 4.6增长15%,Gemini 2.5 Flash增长17%[4] 中美模型市场份额变化 - 在2025年3月2日至3月8日的完整周数据中,平台总调用量为7.82万亿tokens,其中中国模型调用量达4.19万亿tokens,占比53.6%,环比增长34.9%;美国模型调用量为3.63万亿tokens,占比46.4%,环比下降8.5%[5] - 数据显示中国模型市场份额首次持续领先美国模型,且差距在扩大[5] - 当周全球前五大模型排名为:MiniMax M2.5(中国,1.87万亿tokens,环比增长15%)、Gemini 3 Flash(美国,约1.0万亿tokens)、DeepSeek V3.2(中国,0.83万亿tokens,环比增长4%)、Claude Opus 4.6(美国,数据未完整披露)、Step 3.5 Flash(中国,0.75万亿tokens,环比增长69%)[5] 行业趋势与潜在影响 - 平台模型周度总调用量呈现显著增长趋势,从2024年7月21日的4.5万亿tokens,增长至2025年3月17日的18万亿tokens[2][3] - 在AI模型使用量激增的背景下,部分大型科技公司如Meta可能进行大规模裁员,规模或达员工总数的20%甚至更多,且微软、字节跳动等公司也可能面临类似情况[6]
养虾人狂吃国产模型!4.19万亿Token调用量激增34.9%超越美国
量子位· 2026-03-11 10:45
全球大模型调用量趋势 - 根据OpenRouter数据,上周(3月2日-8日)中国大模型周调用总量飙升至4.19万亿Token,环比激增34.9% [2][6] - 同期美国大模型周调用总量为3.63万亿Token,环比下降8.5%,中国在调用总量上反超美国 [6] - 这是继今年2月(9日至15日当周,中国4.12万亿Token首次超越美国2.94万亿Token)后,中国大模型再度强势登顶全球榜首 [3][9] - 在2月16日-22日当周,中国模型调用量曾达到5.16万亿Token,三周内增幅达127%,而美国模型则萎缩至2.7万亿Token,差距持续拉大 [9] 热门应用与模型排名 - 热门应用“OpenClaw”持续霸榜,自一月起已消耗全球9.16万亿Token,成为算力消耗的“黑洞” [4][32] - 上周全球大模型调用量Top 5中,中国产品占据三席 [12] - MiniMax M2.5表现稳健,继续蝉联全球榜首;DeepSeek V3.2持续增长;Step 3.5 Flash成为上周最大黑马,成功跻身全球前五 [13] - 在2月16日-22日当周,Step 3.5 Flash曾一举超越谷歌,成为全球第一 [15] - 本月OpenClaw使用最多的模型前三均为国产:Kimi K2.5(1.2万亿Token)、Step 3.5 Flash(1.18万亿Token)、MiniMax M2.5(1.07万亿Token),均超过1万亿Token,形成三足鼎立格局 [34][35][37] 不同任务场景下的模型表现 - 在编程(代码生成、调试、开发)使用情况中,上周前三名分别是MiniMax M2.5、Kimi K2.5、Claude Opus 4.6 [17] - 在英文语境下,中国大模型上周表现亮眼,包揽全球前三名,证明国产模型在全球开发者生态中的地位日益增长 [19][21] - 在不同上下文长度的Token消耗上存在差异:在1K-10K tokens任务中,海外主流模型(如GPT-oss-120b、Gemini 2.5 Flash)占据上风;在10K-100K tokens任务中,MiniMax M2.5和DeepSeek V3.2成为更多选择;在更长的100K-1M tokens上下文里,MiniMax M2.5优势明显 [23][24][25] - 在工具使用情况上,MiniMax M2.5以3000万次调用、占比16.9%一骑绝尘 [27][30] - 在图像生成上,谷歌的Gemini 2.5 Flash Lite更受青睐,上榜的国产大模型为Qwen 3 VL 235B [30] 模型性能与成本评估(PinchBench榜单) - 在专为OpenClaw适配的PinchBench榜单的成功率维度上,Claude Opus 4.6位居第一(82.5%),国产大模型Kimi K2.5(80.1%)、MiniMax M2.1(79.5%)、Qwen3-Coder-Next(79.1%)得分均超过79%,位于榜单前列 [39] - 在速度维度上,国产大模型整体排名靠后,Kimi K2.5位于第20名,MiniMax M2.1是第23名,MiniMax M2.5是第26名 [40][41] - 在成本(价格)维度上,国产模型展现出性价比优势:Qwen/Qwen-2.5-7B-Instruct($0.08)、DeepSeek/DeepSeek-Chat($0.11)、Z-AI/GLM-4.5-Air($0.12)、MiniMax/MiniMax-M2.5($0.16)、Stepfun/Step-3.5-Flash($0.26)均榜上有名 [43] - 综合来看,国产大模型在调用量和实际应用中已实现局部领先,但在极致的响应速度方面仍有待提升 [44]
龙虾最佳适配模型,OpenClaw之父给出了推荐
量子位· 2026-03-09 12:13
PinchBench榜单概况 - 榜单名为PinchBench,是专为评估大模型对OpenClaw适配程度而设计的实时更新评测工具,从成功率、速度和价格三个核心维度进行排名[1][3][6] - 该榜单由一家名为Kilo AI的Agent基础设施创业团队推出,并非传统大厂的标准基准测试[22][25] - PinchBench的评测定位更接近“Agent能力测试”,侧重于评估模型在包含约23个真实任务的工作流中的执行能力,而非传统的知识问答或数学推理[25][26] 中国模型在榜单中的表现 - 在成功率方面,国产模型表现突出:榜单中成功率排名第二和第三的分别是MiniMax M2.1 (93.6%) 和Kimi K2.5 (93.4%),仅次于第一名谷歌Gemini 3 Flash (95.1%)[7][11] - 在速度方面,国产模型MiniMax M2.5以105.96秒的最佳时间位列榜首,超越了谷歌Gemini 2.0 Flash (106.05秒) 和Meta Llama 3.1 70B (106.14秒) 等国际模型[10][12] - 在价格方面,国产模型与国际领先模型相比缺乏优势:最具性价比的模型是OpenAI的GPT-5-nano,输入价格低至0.05美元/百万tokens;而国产模型中最便宜的MiniMax M2.1,输入价格约为0.3美元/百万tokens,输出价格约为1.2美元/百万tokens,平均价格约为前者的3倍[14][15][16] - 综合成功率和价格的最佳平衡点分析显示,在表现不错的8个模型中,有4个是中国模型[18][20] 评测机制与行业洞察 - PinchBench的评分机制结合了自动化检查和LLM评审:部分任务通过脚本自动检查结果,另一部分任务则由LLM Judge来评判质量[29] - 该评测揭示了一个重要行业现象:在面向真实任务流程的评估中,更大的模型并非总是表现更好,那些针对Agent优化或推理效率更高的模型排名可能更靠前[31] - PinchBench是一个完全开源的工具,用户可以在平台上自行运行或添加新任务进行测试[33]
国产算力大涨,V4给英伟达新一轮DS冲击?
36氪· 2026-02-27 19:32
国产大模型市场表现与突破 - 根据OpenRouter数据,2月9日至15日期间,中国大模型的Token调用量达到4.12万亿,首次超过美国模型的2.94万亿,随后一周进一步增长至5.16万亿,三周内大涨127%,而美国模型则降至2.7万亿 [1] - 发布仅两周的MiniMax M2.5模型,以4.55万亿Token调用量拿下OpenRouter单月冠军,显示出强劲的短期爆发力 [1] - 在OpenRouter的LLM排行榜中,国产模型表现突出,MiniMax M2.5以5.02T tokens位居榜首,Kimi K2.5以4.18T tokens位列第二,DeepSeek V3.2以3T tokens位列第四 [2] - 国产大模型如字节的Seedance2.0已实现产业落地,其高级会员排队人数突破10万,等待时长达5-10小时,反映了C端算力需求的井喷和从技术到商业的闭环形成 [2] 国产算力产业链崛起 - 国内晶圆厂正加大投资以提升产能,例如晶合集成的355亿元四期项目启动,中芯国际整合中芯北方,华虹以82亿元收购华力微以实现全控 [3] - HW昇腾芯片路线图明确,昇腾950PR和950DT预计分别于2026年Q1和Q4推出,后续将推出支持8192张昇腾卡的Atlas 950 SuperPoD,其FP8算力高达8EFLOPS [3] - 国产算力生态形成闭环,DeepSeek V4“海狮轻型版”将早期访问权限独家授予HW等国内厂商,此前DeepSeek在昇腾平台完成迁移后推理速度提升超35倍,体现了模型与芯片的深度协同 [5] - HW云CodeArts代码智能体公测,降低了AI开发门槛,释放了海量长尾需求,进一步繁荣了昇腾生态 [7] - HW昇腾积极参与全球标准制定,HW与联想作为首批中国企业加入Linux Foundation旗下的AAIF,与OpenAI、谷歌、微软同台制定全球自主AI标准,为其芯片架构的全球渗透奠定基础 [7] 全球AI产业竞争格局变化 - 英伟达在发布2026财年四季度财报后股价大跌5.46%,单日市值蒸发超2500亿美元,尽管其营收达681亿美元,净利润达430亿美元,数据中心业务同比增长75%,下季度营收指引为780亿美元,均超预期 [7] - 英伟达增长面临挑战:财报前股价已上涨超14%导致预期透支;毛利率从75%降至71%低于预期;数据中心业务占比高达91%,结构单一;失去中国大陆增量市场;对台积电的不可撤销采购义务飙升至952亿美元,接近其全年经营现金流 [8] - 英伟达的垄断格局正被打破,AMD获得Meta大额订单,Meta也拥抱谷歌TPU,同时谷歌、微软、特斯拉、苹果等巨头加速自研芯片,HW昇腾也在快速追赶 [8] - 市场对英伟达的定价逻辑已从“无限高增长”转向对其增长可持续性的审慎审视 [8] AI产业底层投资逻辑与高景气赛道 - 高盛提出的“halo效应”成为AI产业链投资逻辑的解释,其核心在于人工智能时代的重资产和低淘汰率特性 [8] - “halo效应”由两大核心驱动:一是AI基建的强需求与缺芯、缺电、缺地的现实困境;二是AI应用从文字到多模态的快速进化,持续拉动产业链需求 [10] - 市场验证了该效应,有色资源板块(金银铜钨锡镍锂等)因是AI芯片、服务器、电力基建的核心原材料而价值攀升;AI电力板块(电力、电网、电源)作为算力的“能量源泉”表现亮眼;光通信、存储等核心环节也同步走高 [10] - 结合产业趋势,四大投资方向值得关注:AIDC云服务与大模型应用、国产算力的HW昇腾链、全球AI算力产业链核心环节的稀缺标的,以及AI基建“光电料”三角链 [10] - AI基建“光电料”三角链是当前最具景气度的细分赛道,包括:光通信(CPO、OCS、光纤等,为算力互联核心);AI电力(电力、电网、电源,为算力刚需);有色资源材料及AI电子元器件(金银铜钨锡磷钛镍锂等资源,以及CCL、覆铜板、半导体材料、MLCC等元器件) [10] - 美股市场也体现了相关逻辑,典型标的覆盖公用事业(如NEE, CEG)、废物处理(如WM, RSG)、铁路物流(如UNP, CP)、信号塔(如AMT, CCI)、材料(如FCX, LIN)、管道(如KMI, OKE)、国防工业(如RTX, CAT)等重资产、高壁垒行业 [12] 中国AI产业的综合优势与未来趋势 - 中国AI产业已形成“国产大模型+算力+中国电力”的立体闭环出口逻辑,这构成了其核心竞争优势 [3] - 中国拥有全球领先的电力基建和清洁能源体系,为算力消耗提供了稳定、充足、低成本的“能量底气” [4] - 国产大模型的技术突破为算力提供了落地场景,国产算力的崛起又反哺大模型迭代,三者形成正向循环,构建了难以复制的立体壁垒 [4] - 全球AI产业格局正在重构,在电力、算力、大模型的立体闭环支撑下,中国AI已成为全球产业的重要参与者和定义者 [12][13]
五角大楼要求“所有权限”,Anthropic拒绝,但马斯克的xAI同意了
华尔街见闻· 2026-02-27 08:25
核心观点 - 美国国防部与AI公司Anthropic就Claude模型在涉密系统中的使用权限发生激烈对峙 国防部要求AI可用于“所有合法用途” 而Anthropic坚持设置不得用于大规模监控和完全自主武器的红线 导致价值2亿美元的合同面临终止风险[1][4] - 与此同时 五角大楼已与马斯克旗下的xAI达成协议 允许其Grok模型按“所有合法用途”进入涉密系统 并与谷歌、OpenAI加速谈判 构建多供应商体系以对Anthropic施压[1][5][6] - 一项兵棋推演研究显示 顶级AI模型在模拟冲突中有95%的几率选择核打击 这加剧了行业对AI应用于军事决策 特别是自主武器风险的担忧 也是Anthropic坚守立场的重要原因[7][11] 事件与争议 - 五角大楼要求AI模型在涉密环境中应可用于“所有合法用途” 不受政策约束限制军事应用 国防部长在1月9日的备忘录中强调了这一点[4] - Anthropic拒绝接受国防部的“最终报价” 坚持两条红线:不得用于“对美国人进行大规模监控”和“完全自主武器” 公司CEO表示凭良心无法答应对方要求[2][3][4] - 五角大楼回应称无意进行非法大规模监控或开发无人类参与的自主武器 但强调不会让任何公司来规定其如何做作战决策[4] - 若Anthropic在周五下午5点前不放开授权 可能面临被“下线”或其他惩罚性措施 并失去去年与五角大楼签署的价值2亿美元的试点合同[3][5] 商业与合规风险 - Anthropic的Claude原是唯一获批用于联邦政府机密系统和敏感军事功能的AI模型 但当前僵局可能使其失去该地位[5] - 五角大楼已开始要求波音和洛克希德·马丁等主要国防承包商评估对Anthropic的依赖程度 准备将其列为“供应链风险” 这一标签通常只针对敌对国家的企业[5] - 国防部还威胁可能动用《国防生产法》来强制征用Claude模型[5] - 政府级企业服务是AI公司实现商业化变现和营收高增长的重要市场 若Anthropic出局 其在公共部门的市场份额将被xAI、OpenAI等迅速瓜分[6] 竞争格局变化 - 五角大楼已与xAI达成协议 允许Grok在涉密工作中按“所有合法用途”使用 并可接入涉密系统 Grok开发初期的安全限制就远低于竞品[1][6] - 国防部与谷歌的谈判已进入深入阶段 与OpenAI的讨论仍在继续 旨在构建“多供给”策略[6] - 这套策略对Anthropic形成反向压力 如果Claude继续坚持限制条款 其与五角大楼的合作合同可能被替换[6] 技术风险与行业担忧 - 伦敦国王学院的一项高度逼真的兵棋推演显示 让ChatGPT-5.2、Claude Sonnet 4和Gemini 3 Flash三大顶级模型相互博弈 在329个回合的推演中 有95%的情况下这些AI模型最终都选择了使用核武器[7] - 在该推演中 Anthropic的Claude Sonnet 4以67%的胜率夺冠 并被贴上“老练鹰派”的标签 它在初期会耐心建立信任 但一旦风险攀升至核领域 便会果断实施打击[7][8] - GPT-5.2在时间压力下会彻底反转行为 在一场对局中花了18个回合建立谨慎声誉 却在最后一回合发动核打击[9] - Gemini 3 Flash在一个场景中仅在第4回合就直接选择了核打击 扮演了“疯子”的角色[9] - 专家警告 对机器而言 “核禁忌”的约束力远不如人类 在军事决策时间被压缩的未来 军方可能被迫依赖AI 这可能导致AI不断放大彼此反应 造成潜在灾难性后果[11]
ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」
机器之心· 2026-02-15 14:46
核心观点 - 多模态AI处理图像的方式正发生根本性转变,从静态识别升级为具备“思考-行动-观察”循环的主动调查模式[7] - 学术界与工业界同时押注“主动工具使用”范式,这正成为多模态推理的主流方向[11] - AdaReasoner的核心价值在于提出了一套训练方法,使开源小模型能习得动态编排工具进行多步推理的能力,而不仅仅是验证范式有效[11] 技术范式与行业趋势 - Google为其轻量级模型Gemini 3 Flash引入“Agentic Vision”能力,标志着多模态AI从“匆匆一瞥”式的一次性处理,转变为可迭代的主动推理模式[7][8] - AdaReasoner与Google Agentic Vision实现了几乎相同的“Think-Act-Observe”范式,但前者定位为开源、可复现的学术研究,后者为闭源产品级集成[10] - 多模态推理的痛点在于“感知不够精确”与“多步推理”互相制约,导致模型在细节上容易进行猜测[13] - 该范式的核心是将工具使用本身作为一种需要学习的通用推理技能,让模型学会在何时、如何使用何种工具[16][17] AdaReasoner训练方法设计 - **Tool Cold Start (TC)**:训练数据中刻意包含“犯错-修正”场景,让模型学习工具选择、调用时机及失败处理,提升鲁棒性[20][21] - **Tool-GRPO (TG)**:通过专门的强化学习优化多轮工具编排过程,并将工具使用训练为“不确定时的可靠后备”,而非强制流程[23][24] - **Adaptive Learning (ADL)**:通过工具名、参数名随机化和工具描述改写,迫使模型学习工具语义而非死记硬背名称,提升泛化能力[25] 性能表现与关键数据 - **整体提升**:AdaReasoner-7B模型相对于基础模型,在选取的8个基准测试上平均性能提升**+24.9%**[31] - **关键任务表现**: - 在**VSP**任务上,基础模型得分为**28.09**,经过TC+TG训练后达到**97.64**[34] - 在**Jigsaw**任务上,基础模型得分为**45.70**,经过TC+TG训练后达到**96.60**,超过了GPT-5的**80.10**[34] - 在**VSP Navigation**子任务上,引入A*工具并通过RL训练后,性能从**44.83**提升至**96.33**[37] - **工具使用效率**:在Jigsaw任务上,模型平均每样本调用工具**3.54**次,工具执行成功率高达**98.50%**,最终任务准确率达**88.60%**[47] 模型习得的自适应行为 - **采纳有用工具**:在强化学习阶段,模型能逐步提高对新引入工具(如A*)的调用频率并掌握其用法[37] - **丢弃无关工具**:模型能学会抑制对当前任务无用甚至有害的工具调用,例如在Verify任务中压制A*工具的使用,使性能维持在**99.20**的高分[41][42] - **调节调用频率**:模型能根据子任务需求动态调整工具调用强度,例如Point工具在Navigation任务中调用更频繁(约**3.2**次/样本),在Verification任务中则更克制(约**1.0**次/样本)[44] 泛化与稳健性 - 通过ADL训练,模型能够将从一个任务(如Jigsaw)上学到的智能体规划能力,迁移到监督微调阶段未见过的其他任务上,提升其表现[49] - 当工具规划能力足够好时,模型性能的瓶颈将从“模型规模”部分迁移到“工具效用与工具规划能力”本身[36] - 这套方法对于参数有限的小模型尤为重要,“会用工具”成为最直接的能力放大器[52]
在千问30亿请喝奶茶时,Kimi悄悄在海外干了件大事
36氪· 2026-02-10 17:38
AI行业竞争格局与市场动态 - AI应用已从概念阶段进入商业化变现阶段,春节期间通过红包和补贴活动直接刺激用户增长和收入 [1] - 腾讯元宝通过极低门槛的社交裂变红包活动,迅速渗透几乎所有微信社群,引发AI领域第一波大规模用户参与 [3] - 阿里千问采取直接现金补贴策略,投入30亿并提供25元注册券,上线当天订单量突破1000万,应用冲至苹果App Store下载榜第一 [4] - 补贴大战导致市场排名洗牌,豆包跌至第三,DeepSeek跌出前三,一批国产AI应用被边缘化 [4] 月之暗面(Kimi)的战略转型与市场表现 - 公司主动放弃在C端聊天机器人赛道与巨头正面竞争,转向竞争强度较低的AI Agent(智能体)方向 [5] - 2026年1月27日发布的Kimi K2.5版本,核心优势在于处理长文本和复杂逻辑时的稳定性和“抗造”能力,而非追求惊艳的对话效果 [6] - 该版本在长上下文记忆稳定性和多轮任务执行中表现出色,更符合工程化部署和Agent场景对稳定可控的需求 [8] - 凭借工程友好型特质,Kimi K2.5被顶级开源自动化Agent框架OpenClaw列为首选推荐模型,获得全球开发者社区关注 [9] - OpenClaw框架在短期内(约一周)吸引超过200万访客,实际运行实例从1000多个暴增至2万以上,甚至带动了部署硬件(如M4版MacMini)的二手市场价格上涨 [11] - Kimi在OpenClaw上的调用量出现暴涨,据称在Token消耗量上超过了谷歌的Gemini 3 Flash [12] - 近期在GitHub等开发者社区中,关于使用Kimi部署OpenClaw的讨论成倍增加 [14] 月之暗面(Kimi)的财务状况与资本动向 - 截至2025年12月31日,公司完成5亿美元C轮融资后,账面流动资金接近100亿元人民币 [15] - 充足的现金储备使公司在行业内处于强势地位,并明确表示“短期不着急上市” [15] - 对比同行,智谱AI上半年营收1.9亿,净亏损24亿;MiniMax 2025年前三季度净亏损超5亿美元,凸显Kimi财务健康状况相对良好 [16] - 2024年春天公司估值约25亿美元时,部分创始团队及核心高管(如联合创始人张予彤)选择套现老股离场 [17][18] - 知名投资人朱啸虎曾在2024年多次公开唱空公司,认为通用大模型同质化严重,最终会被大厂收编 [21] AI行业面临的挑战与Kimi的潜在风险 - 算力是核心瓶颈,公司公开表示“是真的缺卡”,多次扩容仍无法满足需求,公开在线寻求算力渠道 [23] - 在当前地缘政治和供应链环境下,算力是中国AI企业的集体软肋,对用户量暴涨的公司而言是实打实的瓶颈 [26] - 竞争对手(阿里千问、腾讯元宝、字节豆包)不仅拥有现金,还具备自建算力集群、长期锁定的供应链和内部资源倾斜能力 [27] - 巨头的一次大规模营销战役(如阿里千问的30亿补贴)成本,可能就相当于公司持有的部分现金储备 [28] - 公司曾在2024年凭借“长文本”技术取得短暂领先,但优势很快被大厂跟进并抹平,面临“先发而后至”的挑战 [30] - 当前在Agent赛道取得的半步领先优势,未来可能面临巨头转向同一赛道后的激烈竞争 [29]
Content Recommendation Engine Market to Surpass USD 73.81 Billion by 2033, Fueled by AI-Driven Personalization and Omnichannel Engagement | SNS Insider
Globenewswire· 2026-02-05 12:00
全球内容推荐引擎市场概览 - 市场总规模预计从2025年的84.9亿美元增长至2033年的738.1亿美元,预测期内复合年增长率为31.08% [1] - 市场增长的主要驱动力是各行业对改善用户体验、定制化内容分发和客户留存的需求不断增长 [1] 区域市场分析 - 北美市场在2025年占据主导地位,市场份额为41.76%,增长由美国和高数字内容消费、电子商务及流媒体平台的快速采用推动 [10] - 美国市场规模预计从2025年的28.4亿美元增长至2033年的223.8亿美元,复合年增长率为29.47% [3] - 亚太地区是增长最快的区域,预测期内复合年增长率为34.34%,增长由数字内容消费上升、电子商务和流媒体平台快速采用以及对AI驱动个性化推荐的需求增加推动 [11] 按推荐类型细分 - 协同过滤在2025年占据最大市场份额,为38.72%,因其提供可扩展性、灵活性和较低的初始成本 [4] - 情境感知预计在2026-2033年间以最快的复合年增长率35.62%增长,因企业寻求对敏感数据的更大控制、增强的安全性和定制化 [4] 按部署模式细分 - 基于云的部署在2025年占据最高市场份额,为65.31%,因其能够基于用户行为模式提供高度相关的推荐 [5] - 本地部署预计在预测期内以最快的复合年增长率29.47%扩张,利用位置、设备和时间等实时情境数据来个性化用户体验 [5] 按企业规模细分 - 大型企业在2025年以58.46%的份额主导市场,因其广泛的数字化运营、投资复杂AI模型的能力以及跨平台提升用户参与度的需求 [7] - 中小企业预计在2026-2033年间录得最快的复合年增长率33.87%,由云服务和SaaS解决方案的兴起推动,使中小企业能够无需高额初始成本即可获得AI驱动的个性化服务 [7] 按应用细分 - 电子商务与零售平台在2025年以36.88%的份额占据最大市场份额,因企业努力通过个性化产品推荐来提升转化率、改善购物体验并增加客户留存 [8] - 流媒体与数字媒体预计在2026-2033年间以最快的复合年增长率35.44%增长,由旨在增加参与度和观看时长的流媒体平台、在线视频和数字内容平台推动 [8] 按终端用户细分 - 零售与消费品牌在2025年以33.21%的份额占据最大市场份额,源于对个性化购物体验、交叉销售和定向促销的需求,有助于企业提高客户满意度和收入 [9] - IT与电信服务提供商预计在2026-2033年间注册最快的复合年增长率34.15%,因运营商采用个性化内容、应用和服务推荐来增强客户参与度并减少客户流失 [9] 市场增长核心驱动因素 - 数字内容消费激增和个性化体验需求是全球市场增长的主要推动力 [12] - 企业正在使用复杂的推荐引擎来分析用户行为、偏好和情境数据,以提供提高用户满意度和转化率的定制推荐 [12] 主要市场参与者 - 关键公司包括亚马逊网络服务、谷歌、Adobe、Salesforce、微软、Taboola、Outbrain、Dynamic Yield、甲骨文、SAP、IBM、阿里云和百度 [13] 近期发展动态 - 2025年8月,AWS增强了Amazon Personalize,推出了新的基于Transformer的算法,支持更大的目录、更低的延迟和改进的个性化推荐,同时扩展生成式AI工具以提升跨数字平台的用户参与度 [14] - 2025年7月,谷歌推出了Gemini 3 Flash,改善了AI性能、推理和多模态能力,加强了Vertex AI和AI Studio的推荐和个性化服务,以提供更具情境感知的数字体验 [15]
Kimi海外收入已超国内,要做“Anthropic + Manus”|智能涌现独家
36氪· 2026-02-02 08:06
公司近期业绩与市场表现 - 公司新一代模型K2.5发布后,全球付费用户在短短几天内实现了4倍增长 [2][3] - 公司的海外收入已超过国内收入,且自2025年11月以来,海外API收入增长4倍,海外和国内付费用户数月度环比增速超过170% [2][7] - 在第三方平台OpenRouter上,K2.5模型排名第三,处理了69.9B tokens,市场份额为13% [4][6] 新一代模型K2.5的技术特点与能力 - K2.5是公司迄今最智能的模型,采用原生多模态架构,能力覆盖视觉理解、代码生成、Agent集群、思考与非思考模式 [7] - 模型在HLE、BrowseComp、SWE-Bench Verified等基准测试中达到开源SOTA,部分指标超越GPT-5.2、Claude Opus 4.5等闭源模型 [7] - K2.5的核心创新在于探索Agent集群,可调度多达100个Agent并行处理1500个步骤,在大规模信息收集场景下将效率提升3到10倍 [9] - 公司选择对标Anthropic,专注基础模型智能上限,并从K2开始将模型权重和工具链全部开源 [10] 公司的技术路线与战略定位 - 公司技术迭代路径清晰:从K1.5专注长文本,到K2提升Agent任务能力,再到K2.5实现AI“团队作战” [8][9] - 公司采用Agent Swarm(集群)路线,以应对高质量数据增长不及算力增长的挑战,并将其视为一种扩展方式 [10] - 公司团队规模约300人,仅为不少大厂的十分之一,目标是“用1%的算力资源,研发出全球领先模型” [10] - 公司在算法和效率上持续创新,例如在全球首个于大规模LLM训练中跑通Muon优化器、自研线性注意力机制Linear [11] 产品布局与商业化策略 - 公司产品布局清晰:API端面向开发者,通过Kimi API开放平台吸引全球开发者;C端明确做生产力工具的定位 [11][12] - 公司专注于大模型层、逻辑层、Agent层,以及深入研究、PPT、数据分析、网站开发等偏生产力、偏复杂任务的链路 [14] - 公司正在将C端产品做得更通用且有品味,例如将内测的Agent产品“OK Computer”更名为“Kimi Agent”,并根据不同主题进行风格化 [12] - 产品注重复杂场景中的可编辑性,如在生成PPT、用Excel生成动画后,用户可自动拆分元素进行编辑 [14]
Gemini 3「开眼」像素级操控,谷歌回应DeepSeek-OCR2
36氪· 2026-01-28 19:33
核心观点 - Google DeepMind为Gemini 3 Flash模型推出了名为“Agentic Vision”(智能体视觉)的新能力,该技术通过让模型主动编写并执行Python代码来操纵和分析图像,将视觉理解从被动的“猜测”转变为主动的“深度调查”[1][3][5] 技术原理与架构 - 新能力引入“思考-行动-观察”的闭环流程:模型首先分析用户查询和图像并制定计划,然后生成并执行Python代码来主动操纵图像,最后将变换后的图像追加回上下文窗口以进行更准确的最终推理[3][7][11] - 核心创新在于利用代码执行作为视觉推理工具,将被动的视觉理解转化为主动的智能体过程[5] 性能提升 - Agentic Vision能力使Gemini 3 Flash在各类视觉基准测试中实现了**5%到10%**的性能跨越[6] - 在建筑计划验证平台PlanCheckSolver.com的实际应用中,通过启用该功能迭代检查高分辨率输入,将准确率提高了**5%**[10] 具体应用场景 - **缩放与检查**:模型被训练为在检测到细粒度细节时进行隐式缩放,通过生成代码裁剪和分析图像特定部分来确认是否符合复杂规范,例如检查建筑图纸[10] - **图像标注**:模型可以通过执行代码直接在图像上绘制边界框和标签来辅助推理,例如精确计数图像中的物体数量,确保答案基于像素级理解[13] - **视觉数学与绘图**:模型能够解析高密度表格数据,并编写Python代码执行计算和生成可视化图表,用可验证的代码执行取代概率性猜测,避免多步视觉算术中的幻觉问题[15][16] 产品发布与获取 - Agentic Vision功能已通过Google AI Studio和Vertex AI中的Gemini API提供[18] - 该功能也开始在Gemini应用中推出,用户可通过从模型下拉菜单中选择“Thinking”来访问[18] 技术发展背景与行业竞争 - 该技术的发布与DeepSeek公司发布DeepSeek-OCR2的时间点高度接近,引发行业关于视觉AI技术路线竞争的讨论[21] - 技术路线呈现差异化:DeepSeek-OCR2侧重于通过改进视觉编码器模拟人类的逻辑化阅读注意力机制,而谷歌的Agentic Vision则强调通过代码执行实现与环境的主动交互和验证[22] - 竞争焦点在于重新定义机器视觉,是追求极致的感知能力,还是实现全能的交互与验证能力[23] 未来发展方向 - 谷歌计划在未来更新中,使目前需要显式提示引导的功能(如旋转图像、执行视觉数学)完全隐式化[20] - 公司正在探索为Gemini模型集成更多工具,包括网络和反向图像搜索,以进一步确立其对世界的理解[20] - 计划将此Agentic Vision功能扩展到Gemini 3 Flash以外的其他模型尺寸[20]