全球主流大模型进展跟踪
财通证券·2026-02-25 20:59

报告行业投资评级 - 投资评级:看好(维持) [2] 报告核心观点 - 海外大模型三重进化:海外头部企业进入推理能力升级、场景落地与生态体系重构的竞速新阶段,推动大模型从单纯能力输出向实际任务执行、规模化生产力交付升级 [7] - 国产大模型多维突围:国产大模型企业以开源为基底,围绕效率优化与Agent生态协同实现多维突破,全面发力Agent实际任务执行场景 [7] - 行业趋势印证:大模型行业已完成从“生成”到“行动”的核心转向,竞争焦点从模型参数、跑分转向低单位推理成本、高吞吐、稳定工具调用的综合供给效率,入口控制与可执行生态的系统性构建成为关键 [7] 根据目录总结 1. 海外大模型三重进化 - Anthropic:策略转向以企业工作流稳定交付为核心,近期完成旗舰模型Opus 4.6和主力型号Sonnet 4.6的双版本迭代,均首次开放1M token上下文窗口,并强化编码、长程Agent等能力 [11][14] 其核心产品Claude Code上线后短期实现约10亿美元年化收入,Claude Cowork将能力延伸至全品类办公任务,并通过Claude in Excel和Claude in PowerPoint深度集成Office生态,直击企业高频文档型工作痛点 [15][20][22] - OpenAI:发展主线聚焦模型长程任务闭环、工具执行与可控协作的产品化落地,通过GPT-5.2、GPT-5.3-Codex等版本迭代强化专业工作与工程交付能力,其中GPT-5.3-Codex执行速度较上一代提升约25% [25][26] 产品形态上,Codex app从IDE插件升级为多Agent桌面指挥中心,掌握生产力场景用户触达主动权 [28] ChatGPT平台侧通过清退旧模型、强化个性可控配置来收敛资源,支撑新模型工作流能力落地 [31] - Google:延续“模型迭代+场景延伸”双线策略,Gemini 3.1 Pro点版本迭代旨在抬高推理竞争基线,其在ARC-AGI-2基准测试中取得77.1%的verified成绩,较Gemini 3 Pro推理表现提升超一倍 [32][34] Lyria 3音乐生成功能将AI能力延伸至音频创作领域,开辟个人表达新入口 [40] - OpenClaw:作为个人智能体产品化样本,定位为自托管Gateway,整合多渠道至统一控制面,创始人于2026年2月加入OpenAI后,项目转入基金会模式延续开源 [43][47] 2. 国产大模型多维突围 - 智谱 (Z.ai):发布旗舰模型GLM-5,参数规模从355B扩容至744B,聚焦复杂系统工程与长程Agent任务,并深度兼容国产芯片生态 [48][49] 商业化信号明确,GLM编码订阅计划提价至少30%,印证编码辅助已成为国内大模型确定付费场景之一 [52] - MiniMax:发布M2.5模型,聚焦生产力场景Agent落地,在SWE-Bench Verified等基准测试中取得SOTA或接近SOTA成绩 [54] 核心竞争力在于成本与吞吐双优,推理速度可达100 TPS,经济性版本下连续运行一小时成本可低至约0.3美元,突破了Agent规模化运行的成本约束 [57][58] 产品化方面,将Office能力组件化为可复用的Office Skills和“专家Expert”模块,内部已有约30%的真实业务任务由模型自主完成 [61] - Kimi (Moonshot):发布K2.5模型,采用多模态MoE架构,总参数达1T,上下文窗口扩展至256K,集成MoonViT视觉编码器优化跨模态推理 [65][66] 产品化路径以“视觉到代码”和Agent Swarm并行执行为差异化,后者可动态调度最多100个子Agent协作,端到端任务速度较串行模式最高提升约4.5倍 [68][70] - 阿里:开源发布Qwen3.5-Plus模型,采用稀疏MoE架构,总参数3970亿,部署显存占用降低60%,在256K超长上下文下推理吞吐最高提升19倍 [74] 该模型通过原生多模态预训练实现能力跃迁,并在春节期间,千问App消费级AI购物Agent在6天内完成1.2亿笔订单,验证了真实场景的规模化任务执行能力 [76][77] 开源生态强大,自2023年以来已开源400+千问模型,全球下载量破10亿 [80] - 字节跳动:春节档“三连发”,推出视频生成模型Seedance 2.0、图像模型Seedream 5.0 Lite及豆包大模型2.0,补全“多模态生成+通用任务执行”能力矩阵 [81][82][83] 落地策略上,通过豆包App、电脑端等多端入口的“专家模式”承载Agent能力,并借助春节营销实现规模化分发 [85] 3. 行业趋势印证 - 核心转向:行业增长核心动力来自任务复杂度与调用链路的提升,OpenRouter平台数据显示,其2月上旬周度token处理量已升至13T级别,较1月初显著增长 [89] - 衡量指标迁移:Token消耗与任务ROI成为核心衡量维度,使用强度与成本约束比停留时长更能体现价值密度 [92] - 竞争焦点变化:供给侧竞争核心转向“低单位推理成本、高吞吐、稳定工具调用”的综合供给能力,开源模型在真实流量中占比持续提升 [92] 入口从传统对话框转向工作台、Office集成、终端/IDE等,模型优势需沉淀为组织可复用的生产力单元 [92][93] 4. 投资建议 - 报告建议关注AI应用、云和网络服务、IDC和算力租赁、国产算力链、海外算力等领域的相关公司 [97]