全球主流大模型进展跟踪

报告行业投资评级 - 投资评级：看好（维持） [2] 报告核心观点 - 海外大模型三重进化：海外头部企业进入推理能力升级、场景落地与生态体系重构的竞速新阶段，推动大模型从单纯能力输出向实际任务执行、规模化生产力交付升级 [7] - 国产大模型多维突围：国产大模型企业以开源为基底，围绕效率优化与Agent生态协同实现多维突破，全面发力Agent实际任务执行场景 [7] - 行业趋势印证：大模型行业已完成从“生成”到“行动”的核心转向，竞争焦点从模型参数、跑分转向低单位推理成本、高吞吐、稳定工具调用的综合供给效率，入口控制与可执行生态的系统性构建成为关键 [7] 根据目录总结 1. 海外大模型三重进化 - Anthropic：策略转向以企业工作流稳定交付为核心，近期完成旗舰模型Opus 4.6和主力型号Sonnet 4.6的双版本迭代，均首次开放1M token上下文窗口，并强化编码、长程Agent等能力 [11][14] 其核心产品Claude Code上线后短期实现约10亿美元年化收入，Claude Cowork将能力延伸至全品类办公任务，并通过Claude in Excel和Claude in PowerPoint深度集成Office生态，直击企业高频文档型工作痛点 [15][20][22] - OpenAI：发展主线聚焦模型长程任务闭环、工具执行与可控协作的产品化落地，通过GPT-5.2、GPT-5.3-Codex等版本迭代强化专业工作与工程交付能力，其中GPT-5.3-Codex执行速度较上一代提升约25% [25][26] 产品形态上，Codex app从IDE插件升级为多Agent桌面指挥中心，掌握生产力场景用户触达主动权 [28] ChatGPT平台侧通过清退旧模型、强化个性可控配置来收敛资源，支撑新模型工作流能力落地 [31] - Google：延续“模型迭代+场景延伸”双线策略，Gemini 3.1 Pro点版本迭代旨在抬高推理竞争基线，其在ARC-AGI-2基准测试中取得77.1%的verified成绩，较Gemini 3 Pro推理表现提升超一倍 [32][34] Lyria 3音乐生成功能将AI能力延伸至音频创作领域，开辟个人表达新入口 [40] - OpenClaw：作为个人智能体产品化样本，定位为自托管Gateway，整合多渠道至统一控制面，创始人于2026年2月加入OpenAI后，项目转入基金会模式延续开源 [43][47] 2. 国产大模型多维突围 - 智谱 (Z.ai)：发布旗舰模型GLM-5，参数规模从355B扩容至744B，聚焦复杂系统工程与长程Agent任务，并深度兼容国产芯片生态 [48][49] 商业化信号明确，GLM编码订阅计划提价至少30%，印证编码辅助已成为国内大模型确定付费场景之一 [52] - MiniMax：发布M2.5模型，聚焦生产力场景Agent落地，在SWE-Bench Verified等基准测试中取得SOTA或接近SOTA成绩 [54] 核心竞争力在于成本与吞吐双优，推理速度可达100 TPS，经济性版本下连续运行一小时成本可低至约0.3美元，突破了Agent规模化运行的成本约束 [57][58] 产品化方面，将Office能力组件化为可复用的Office Skills和“专家Expert”模块，内部已有约30%的真实业务任务由模型自主完成 [61] - Kimi (Moonshot)：发布K2.5模型，采用多模态MoE架构，总参数达1T，上下文窗口扩展至256K，集成MoonViT视觉编码器优化跨模态推理 [65][66] 产品化路径以“视觉到代码”和Agent Swarm并行执行为差异化，后者可动态调度最多100个子Agent协作，端到端任务速度较串行模式最高提升约4.5倍 [68][70] - 阿里：开源发布Qwen3.5-Plus模型，采用稀疏MoE架构，总参数3970亿，部署显存占用降低60%，在256K超长上下文下推理吞吐最高提升19倍 [74] 该模型通过原生多模态预训练实现能力跃迁，并在春节期间，千问App消费级AI购物Agent在6天内完成1.2亿笔订单，验证了真实场景的规模化任务执行能力 [76][77] 开源生态强大，自2023年以来已开源400+千问模型，全球下载量破10亿 [80] - 字节跳动：春节档“三连发”，推出视频生成模型Seedance 2.0、图像模型Seedream 5.0 Lite及豆包大模型2.0，补全“多模态生成+通用任务执行”能力矩阵 [81][82][83] 落地策略上，通过豆包App、电脑端等多端入口的“专家模式”承载Agent能力，并借助春节营销实现规模化分发 [85] 3. 行业趋势印证 - 核心转向：行业增长核心动力来自任务复杂度与调用链路的提升，OpenRouter平台数据显示，其2月上旬周度token处理量已升至13T级别，较1月初显著增长 [89] - 衡量指标迁移：Token消耗与任务ROI成为核心衡量维度，使用强度与成本约束比停留时长更能体现价值密度 [92] - 竞争焦点变化：供给侧竞争核心转向“低单位推理成本、高吞吐、稳定工具调用”的综合供给能力，开源模型在真实流量中占比持续提升 [92] 入口从传统对话框转向工作台、Office集成、终端/IDE等，模型优势需沉淀为组织可复用的生产力单元 [92][93] 4. 投资建议 - 报告建议关注AI应用、云和网络服务、IDC和算力租赁、国产算力链、海外算力等领域的相关公司 [97]