智能体应用研究系列（二）：全球大模型的技术迭代与商业化

报告行业投资评级 - 推荐（维持）[4] 报告的核心观点 - 全球大模型产业技术高频迭代，2026年开始全面商业化提速，会员订阅转化随模型能力提升而加速，Coding与Agentic场景落地驱动API调用激增，生态赋能逐步实现多维度变现，大模型本身成为成长最快的赛道，从“吞金兽”转变为“印钞机”的奇点临近 [7] - AI算力基础设施是大模型发展的基本保障，成为制约大模型能力迭代和收入放量的关键因素，AI Infra及MaaS云服务厂商将持续分享AI产业成长红利 [7] - 大模型竞争的核心在于：1）技术迭代频率是否足够高；2）是否拥有自我增强飞轮（开发者生态、使用数据、场景反馈等）；3）单位智能成本能否持续下降；4）是否从模型能力走向工作流替代，从“卖token”走向“卖效果” [7] 全球大模型技术迭代 - 大模型遵循“Scaling Law”在模型参数、数据、推理与学习环境四个维度持续迭代 [13] - 模型参数：从追求规模到注重效率，参数规模持续扩大（如GPT-4约1.8万亿，GPT-5.5约9.6-9.7万亿），同时通过MoE架构（如DeepSeek V3总参数6710亿，每次仅激活约370亿）实现计算成本可控 [16][17][19][21] - 数据：从“更多数据”转向“更多种类数据”及“更高质量数据”，训练数据规模持续扩大（如Qwen3达36万亿token），合成数据成为填补高质量公开语料缺口的核心路径，多模态数据（文本、图像、音频、视频）和物理交互数据（世界模型）拓展模型边界 [25][26][27][28][34] - 推理：通过思维链（CoT）、推理时算力扩展（test-time compute scaling）、强化学习与长上下文能力提升推理能力，标志性节点包括OpenAI o1（在AIME数学竞赛正确率从GPT-4o的13%提升至83%）和开源模型DeepSeek R1 [35][38][42][45] - 学习环境：向真实工程场景拓展，代码执行是最早成熟的可验证学习环境（SWE-bench Verified得分从2024年初约22%提升至2026年4月Claude Mythos Preview的93.9%），驾驭工程（Harness Engineering）成为让智能体在复杂任务中持续稳定运行的关键 [48][49][50][52] 海外大模型公司分析 OpenAI GPT - 技术路径：是Scaling路径的典型实践者，参数规模从GPT-1的1.17亿跃升至GPT-5.5的数万亿；多模态能力领先（GPT-5.5在MMMU Pro得分83.2%）；率先将推理时算力产品化（o1系列）；代码能力处于第一梯队（GPT-5.5在SWE-bench Pro得分58.6%）；推出Codex并实践Harness Engineering [56][61][62][63][65] - 商业化：历经三阶段：1）会员订阅（ChatGPT Plus定价20美元/月）打下规模基础，ChatGPT周活达9亿，付费用户超5000万；2）阶梯定价提高ARPU，产品线扩展为Go（8美元/月）、Pro（200美元/月）等；3）企业端持续渗透，并重点布局广告（CPM定价60美元）与电商抽佣（4%抽成） [60][66][67][68][72][74] Anthropic Claude - 技术路径：以“宪法AI”和安全对齐数据为技术基因；推理与代码能力领先，在SWE-bench Verified榜单大多时候保持领先（如Claude Mythos Preview得分93.9%）；以Claude Code和开源Model Context Protocol（MCP）构建智能体执行环境 [77][80][81][85] - 商业化：聚焦高价值企业客群，2026年5月年度经常性收入（ARR）约440亿美元，超越OpenAI成为全球最大大模型厂商；收入主要来自企业/API调用（占比70%-75%）；通过Claude Code等产品推动从“Token售卖”到“数字劳动力交付”的商业模式升级 [77][78][94][101] Google Gemini - 技术路径：依托Google生态（拥有13款用户超10亿的产品）形成护城河；采用原生多模态架构；以高质量与合成数据提升训练效率；持续强化长上下文和复杂推理能力（Gemini 3.1 Pro在ARC-AGI-2得分77.1%）；在智能体推进落地上保持开放，推出Agent Development Kit等 [106][107][108][109][111] - 商业化：依托现有广告、云和订阅生态实现商业化：1）广告基本盘稳固，AI搜索功能（如AI Overview月活25亿）提升广告库存和价值；2）Google Cloud收入快速增长（2026Q1收入200.3亿美元，同比增63%），Gemini API月token处理量达3200万亿，近一年增长约7倍；3）订阅方面，Gemini Enterprise已售出超800万付费席位，Gemini App月活达9亿 [112][116][121][122][125][127] 国内大模型公司分析阿里 Qwen - 技术路径：保持开源持续迭代（Qwen2-72B曾登顶Hugging Face开源榜），Qwen3-Max参数规模超1万亿；通过通用语料扩容和专项数据增强夯实底座；持续强化Agentic Coding与长程任务（Qwen3.7-Max在SWE-bench Verified得分80.4） [128][131][132][134][136] - 商业化：通过开源绑定开发者生态（截至2025年9月基于Qwen的衍生模型数量超17万个，全球第一）；依托阿里云规模经济优势降价推动市场渗透（如Qwen-Long输入价格降幅达97%）；通过百炼MaaS平台、模型精调、私有化部署及阿里系应用生态实现全方位变现 [138][141][142] DeepSeek - 技术路径：以“极致成本效率”为核心技术路线，引领架构创新，如DeepSeek V3总参数6710亿但每次仅激活约370亿，训练成本仅约550万美元；DeepSeek R1以约600万美元训练成本对标OpenAI o1，推动推理模型开源普及 [7][21][45] 字节豆包 - 技术路径：多模态能力领先，Seedance 2.0采用统一的多模态音视频联合生成架构，VBench综合得分达88.5，发布时创全球视频生成模型最高纪录；豆包在国内月活跃用户（MAU）持续领先 [7][29] - 商业化：开始了消费端订阅的商业化尝试；通过C端入口、B端MaaS及综合生态变现 [7] 智谱 GLM - 技术路径：坚持原创架构高频迭代（从ChatGLM3-6B到GLM-5）；深耕MaaS一体化平台 [7][18] - 商业化：MaaS平台的厚积薄发转化为定价权、收入结构升级和开发者生态放量 [7] MiniMax - 技术路径：强化全模态能力，落地AI原生产品 [9] - 商业化：通过原生消费端订阅+开放平台API实现商业化 [9]