报告投资评级 - 报告未明确给出具体的行业或公司投资评级 [2] 报告核心观点 - 回顾2025年,全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,但通用能力在稳定性、幻觉率等方面仍有短板 [2] - 展望2026年,大模型将在强化学习、模型记忆、上下文工程等方面取得更多突破,从短文本生成向长思维链任务、从文本交互向原生多模态演进,向实现AGI的长期目标更进一步 [2] 技术视角:模型架构优化与提升智能上限 模型能力:聚焦推理、编程、Agentic与多模态 - 推理能力:2025年模型推理能力上限和思维链利用效率均得到优化,强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思,并与工具调用结合形成“交错思维链” [17][18]。在MMLU-Pro测试中,头部模型如Gemini-3-Pro-Preview得分为90.5%,Claude-Opus-4.1为87.9%,GPT-5为87.1% [19] - 编程能力:AI编程已进化为具备工程闭环能力的开发者代理,从代码补全到全栈自主构建。2025年约84%的全球开发者使用AI编程工具 [20]。在Code Arena测试中,Claude-opus-4-5-20251101-thinking-32k得分为1510,GPT-5.2-high为1478,Gemini-3-pro为1477 [22] - Agentic能力:核心技术突破之一是交错思维链的使用,使智能体能在思考与行动间高频切换,提升实时修正能力并降低幻觉。在HLE测试中,Gemini-3-pro-preview准确率为37.5%,GPT-5-pro为31.6%,GPT-5.2为27.8% [24][25] - 多模态能力:图片生成在质量、理解与控制能力上实现大幅跃升,进入可控、可用、可规模化生产阶段。原生多模态架构(统一token化)普及,以Gemini-3为代表 [28]。在OpenCompass测试中,Gemini-3-Pro得分为66.4,Seed1.6-vision为61.1,Qwen3-VL-235B-A22B-Thinking为60.2 [30] - 能力差距:国产大模型整体能力与海外头部模型维持约半年的静态差距,在海外模型推出3到6个月后,国内头部厂商能推出能力相当的模型并达到SOTA水准 [32][33] - 发展路径:海外模型厂商追求模型智能上限,国内模型厂商在有限资源下通过开源路线、工程及算法优化追求效率与性能的平衡 [37] 模型架构:基于Transformer的优化延续 - 主流架构:Transformer架构延续,优化聚焦于模型架构、算法和工程,以提升参数利用效率和模型智能潜力 [40] - MoE架构:平衡性能与效率的稀疏专家混合网络(MoE)成为共识,通常仅激活模型总参数的10-20%,显著降低计算量。国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [41] - 注意力机制:基于算法和工程优化提升效率,主要分为全注意力(Full-Attention,复杂度O(N^2))、线性注意力(Linear-Attention,复杂度O(N))和混合注意力(Hybrid-Attention)。模型厂商根据效果持续优化选择,如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入稀疏注意力将计算复杂度降至O(Nk) [49][50] - 工程优化:核心是降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制、长上下文优化等。通过线性注意力、稀疏注意力、MLA内存优化等技术降低计算复杂度和显存占用 [54][55] 训练范式:预训练与强化学习 - 预训练 Scaling-Law:预计2026年预训练阶段的Scaling-Law将重现,旗舰模型参数量将更上一个台阶。预训练通过算法和工程优化仍有提升空间,随着英伟达GB系列芯片成熟,模型将基于更高性能的万卡集群进一步突破智能上限 [3][61] - 强化学习重要性:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”。海外模型厂商非常重视,国内厂商如DeepSeek、阿里千问也在跟进。预计2026年海内外模型厂商强化学习占比将进一步提升 [3][61] - 算力与数据基础:强化学习需要大规模算力提供稳定性,并高度依赖高质量数据。高质量数据用于奖励模型训练和SFT冷启动 [62] - 算法演进:强化学习路径从RLHF、PPO、DPO演进至推理导向的强化学习(如GRPO),并正从静态离线向动态在线演进 [64][66] 路线展望:持续学习、模型记忆与世界模型 - 持续学习与模型记忆:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制,实现持续甚至终身学习。Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是落地的关键 [4][70] - 世界模型:聚焦理解物理世界因果规律,是实现AGI的重要拼图。当前主要有三条技术路径:李飞飞团队World Labs的Marble模型(创建持久3D世界)、LeCun的JEPA架构(认知预测)、Google DeepMind的Genie 3(交互仿真) [87][90] - 短期与中长期焦点:2026年模型厂商短期将聚焦强化学习和上下文工程,中长期围绕持续学习、模型记忆和世界模型等创新路线 [67] 回顾与展望:海内外头部大模型巡礼 OpenAI - 2025年进展:在推理、Agentic、多模态、代码能力上全方位提升,发布了GPT-4.1、o4-mini、GPT-5、Sora-2等模型。开始探索商业化,如在ChatGPT中插入推荐广告,与软件厂商合作探索企业智能代理 [93] - 2026年展望:预计将加速商业兑现,拓展企业端和广告市场,借鉴Cowork和Moltbot等企业端Agent案例打造新产品 [95] Gemini (Google) - 2025年进展:Gemini-3的发布使Google跻身第一梯队,其原生多模态能力突出。Nano banana Pro图像生成模型具备空间推理和光影控制能力。商业化上更聚焦产品提效,Gemini月活达6.5亿,API每分钟消耗70亿tokens [98] - 2026年展望:预计将延续原生多模态优势,推进Scaling-law,提升长链推理和端到端编程能力,并加速探索世界模型 [99] Anthropic - 2025年进展:延续在编程领域的优势,发布了Claude Opus-4.5等模型,加强了代码与长任务处理能力。推出了面向开发者的Claude Code(ARR已突破10亿美元)和面向泛化用户的Cowork,探索企业Agent场景 [101][102] - 2026年展望:预计将提升记忆能力,探索更多Agent泛化场景,让Cowork等产品具备“永久记忆”,成为理解用户的专属智能体 [103][104] 阿里通义千问 - 布局:布局全模态模型矩阵,打开Agent市场空间 [105]
中金:人工智能十年展望:2026关键趋势之模型技术篇