文章核心观点 - 基于OpenRouter平台超过100万亿tokens的真实使用数据,AI行业正在经历一场深刻的范式转变,其核心是从“工具”进化为“伙伴” [1][2][3] - 这场转变由两大技术革命驱动:“推理革命”使AI具备多步骤思考能力,“代理式AI”使AI能够自主规划并执行任务 [11][27] - 真实的用户行为和市场数据揭示了与实验室基准测试不同的竞争格局,开源模型(特别是中国的DeepSeek和Kimi)凭借成本、灵活性等综合优势正在强势崛起 [44][47] - 用户选择模型的标准日益多元化,模型“人设”(个性)和突破性能力对用户留存的影响,可能超过传统的性能基准分数 [88][96][100] - AI的应用场景已进入爆发期,正从创意写作和编程两大引擎,扩展到角色扮演等满足情感需求的领域,并深刻重塑普通人的工作、学习和娱乐方式 [69][71][80][121] 数据来源与重要性 - 报告数据来源于硅谷风投A16Z与OpenRouter联合发布的《State of AI: An Empirical 100 Trillion Token Study》,这是基于真实战场数据的首次大规模研究 [2] - 数据覆盖了OpenRouter平台上过去一年产生的超过100万亿tokens,涉及500万开发者、300多个AI模型及60多家提供商 [2] - OpenRouter被比喻为“AI世界的美团外卖”,连接了几乎所有主流AI模型,其数据的核心价值在于多样性,能够反映用户在公平平台上的真实选择 [5][7][8] - 从2024年初到2025年中,OpenRouter的年处理流量从约10万亿tokens增长至超过100万亿tokens,增幅达10倍,标志着AI应用从“尝鲜期”进入“爆发期” [8] - 作为对比,OpenAI官方API在2024年10月的日均处理量为8.6万亿tokens,而OpenRouter的日处理量已突破1万亿tokens [6] 推理革命 - 核心转变是AI从“接话机器”(一次性输出)进化为“思考机器”(多步骤思考),能够像人类一样分解问题、搜索信息并迭代优化 [13][16] - 标志性事件是OpenAI于2024年12月5日发布的o1推理模型,其特点是会进行内部推理,开启了“代理式推理”的新模式 [17][18] - 市场数据支持这一趋势:用户提示词长度显著增加、对话轮次增多,且专业推理模型的市场份额快速上升 [20][21][22] - 用户正用更复杂的任务“训练”AI,而能够胜任复杂任务的推理模型正在赢得市场 [23] - 这喻示着AI的角色从“计算器”(工具)进化为“工程师”(同事),实现了从工具到同事的跨越 [25][26] 代理式AI - 代理式AI改变了AI的“手脚”,使其从被动、单次、静态的问答,转变为主动、多步、动态的任务执行者 [27][29][30] - 例如,在分析财报时,代理式AI能主动搜索最新信息、下载文件、提取数据并生成分析报告,突破了传统模型数据过时的局限 [31][32][33] - A16Z报告指出,代理式推理是OpenRouter上增长最快的行为模式,表明开发者正在大规模构建能自主完成任务的AI代理应用 [34][35] - 这意味着用户期待从“给我一个答案”变为“帮我完成这件事”,AI的价值从“信息检索”升级到“任务执行” [35][36] - 竞争前沿随之改变,重点转向模型的编排能力、控制力和可靠性,而不仅仅是准确率,这要求AI公司构建全新的“模型调度系统”技术栈 [42][43] 开源模型的崛起与中国力量 - 真实使用数据挑战了“闭源模型碾压开源”的常识,显示开源模型,尤其是推理型开源模型正在快速抢占市场份额 [46][47] - 中国的DeepSeek R1和Kimi K2在报告中表现突出,成为开源逆袭的代表 [47] - DeepSeek R1凭借巨大的成本优势(调用成本可能低至GPT-4的十分之一)、不输闭源模型的推理能力以及开源可自部署的灵活性,获得开发者青睐 [51][52][53][54] - Kimi K2是一个万亿参数级的开源MoE模型,在长文本处理和推理任务上表现优异,发布后短时间内即获得显著市场份额 [56][57] - 开源逆袭的关键在于真实世界的“好用”不等于基准测试的“高分”,用户选择是成本、延迟、定制性、隐私及“人设”匹配度等综合权衡的结果 [59][65] - 这对中国AI产业意味着,在推理能力等新方向上与国际顶尖水平的差距正在缩小,开源路线结合成本优势和特定能力可以形成强大的市场竞争力 [67][75] 真实应用场景与用户行为 - 驱动token使用量的两大核心场景是创意写作和编程 [71] - 在编程场景中,代码生成、解释和debug是高频需求,AI的价值不仅在于“生产力”,更在于“理解力” [73][74] - 在创意写作中,AI主要作为“创意合伙人”与人类共创,而非完全替代 [77][78] - 角色扮演占据了相当大比例的使用量,这揭示了人类与AI交互中存在“情感连接”的维度,满足了陪伴、娱乐等需求 [80][81][82] - 全球使用模式存在地区差异,例如北美多用于专业工作,亚洲多用于学习和创意,欧洲更偏好隐私和开源模型,体现了AI应用的本地化特征 [84][88] 模型“人设”与用户选择 - 用户能感知到不同AI模型的独特“性格”,如GPT-4的博学严谨、Claude的细腻谨慎、Gemini的快速直接、DeepSeek的专注深入,这些构成了模型的“人设” [89][94] - 报告发现,某些在学术基准测试中表现一般的模型,却因“人设”受欢迎而拥有出色的用户留存率 [96][97] - 用户体验到的“突破性能力”(如卓越的代码、长文本、多模态或推理能力)能建立用户忠诚度,促使用户迁移并不再返回 [100][102] - 这对AI公司的启示是:不应只追求基准分数,而需打造差异化“人设”并在细分场景做到极致,同时突破性创新是建立护城河的关键 [103][104][105] 对中国AI产业的启示 - 积极信号:DeepSeek R1和Kimi K2在全球真实市场中站稳脚跟,证明中国开源推理模型已具备全球竞争力 [108][109][110] - 现存挑战:在开发者工具、生态集成及海外品牌认知方面,与国际领先者仍有差距 [112][116] - 重大机遇:“推理革命”和“代理式AI”是新赛道,中国公司在工程能力和丰富应用场景方面具有优势,存在弯道超车的机会窗口 [113][114][116] - 发展建议:聚焦推理和代理能力;采用“开源+商业”双轮驱动;重视开发者体验等软实力;打造差异化“人设”而非简单模仿 [115][117][118][119] 对普通人日常的影响 - 工作方式重构:AI正成为各行业从业者的必备技能,其价值在于将人从重复劳动中解放,聚焦于更高价值的洞察、创新与决策 [122][126] - 学习方式升级:AI能提供个性化、沉浸式的学习辅导,如实时答疑、语言对话、知识讲解,有助于消解教育资源不平等的问题 [127][131] - 娱乐方式扩展:AI创造了如角色扮演、互动小说等“主动共创”的新娱乐形态,超越了传统的被动观看 [132][134][135] - 需警惕的风险:包括对AI的依赖性可能导致独立思考能力退化、数据隐私问题、信息茧房效应以及AI生成内容的真假难辨 [136]
观察| 100万亿Tokens的:AI正在发生你看不见的巨变
未可知人工智能研究院·2025-12-07 11:02