中文大模型基准测评2025年年度报告：2026开年特别版：含1月底重磅模型动态评测

报告行业投资评级 * 报告未对行业或公司给出明确的投资评级报告的核心观点 * 海外闭源模型（Claude, Gemini, GPT）在综合能力上仍占据领先地位，但国产大模型正从“跟跑”向“并跑”阶段加速演进，在部分领域（如代码生成）已实现超越[23][24] * 大模型行业竞争格局呈现结构性差异：闭源阵营是“海外领先、国产追赶”，而开源阵营则是“国产主导、海外式微”[24] * 2025年大模型发展的关键趋势包括：多模态与推理能力突破、智能体（Agent）崛起与生态重构、混合专家（MoE）架构成为主流、以及中国开源模型在全球开源社区占据半壁江山[16] 2025年关键进展总结 * 全景图：报告展示了涵盖通用、多模态、行业等领域的“2025年最值得关注的中文大模型全景图”，以及覆盖通用和垂直领域的“国内智能体产品全景图”[11][13] * 发展脉络：自ChatGPT发布以来，大模型发展经历了“百模大战与多模态萌芽”、“多模态爆发与推理突破”、“智能体崛起与生态重构”三个时期[16] * 关键事件：2025年1月深度求索发布的DeepSeek-R1开源推理大模型以超高性价比引爆全球；中国开源模型（Qwen3, DeepSeek, GLM等）在全球开源社区已占据半壁江山[16] * 竞争动态：根据2025年全年月度测评，国内榜首位置在Kimi、DeepSeek、Qwen、豆包等模型间频繁更替，竞争激烈[18] 2025年年度测评结果与分析总结 * 总榜排名：在2025年年度中文大模型基准测评总榜中，海外闭源模型Claude-Opus-4.5-Reasoning以68.25分位居榜首，Gemini-3-Pro-Preview（65.59分）和GPT-5.2（64.32分）紧随其后；国内最佳开源模型Kimi-K2.5-Thinking（61.50分）和最佳闭源模型Qwen3-Max-Thinking（60.61分）分列全球第四和第六[23][45] * 模型能力格局：通过PCA分析，报告将模型划分为“综合能力待提升区”、“全能稳健型”（右上，侧重长链路规划与精准执行）和“硬核理科型”（右下，侧重深度思考与逻辑计算）等区域[41][42] * 六大任务国内Top3： * 数学推理：Qwen3-Max-Thinking (国内第一，80.87分) * 科学推理：DeepSeek-V3.2-Thinking (国内第一，71.37分) * 代码生成：Kimi-K2.5-Thinking (国内第一，53.33分) * 智能体任务规划：Qwen3-Max-Thinking (国内第一，70.13分) * 精确指令遵循：ERNIE-5.0 (国内第一，37.53分) * 幻觉控制：GLM-4.7 (国内第一，83.85分)[43] * 海内外对比分析： * 数学推理：国内头部模型（Qwen3-Max-Thinking）已追平海外最佳（Gemini-3-Pro-Preview，均为80.87分），但国内整体梯队靠后[52] * 代码生成：国产模型表现亮眼，Kimi-K2.5-Thinking（53.33分）超越海外最佳Grok-4（49.51分），尤其在Web Coding子任务上优势明显[56][60] * 智能体任务规划：海外头部模型（GPT-5.2，81.39分）优势显著[62] * 精确指令遵循与幻觉控制：海外头部模型领先优势显著，是国内模型的短板[64][70] * 开闭源对比分析： * 闭源模型在科学推理、幻觉控制、精确指令遵循等任务上全方位领先[74][78][80][81] * 开源模型在推理能力上持续追赶，并在代码生成任务上实现头部突破，Kimi-K2.5-Thinking（53.33分）领先所有闭源模型[74][84] * 性价比与效能：国内模型较海外模型具有更高的性价比；海外推理模型的推理效能整体上显著领先于国内推理模型[90][93] * 代表性模型： * Kimi-K2.5-Thinking：优势在于代码生成（尤其是Web Coding）和智能体任务规划能力，需提升精确指令遵循和幻觉控制[96] * Qwen3-Max-Thinking：优势在于复杂推理（数学推理80.87分）和智能体任务规划，需提升幻觉控制、精确指令遵循和代码生成能力[100] * 评测一致性：SuperCLUE基准测评成绩与人类评估（以LMArena为代表）具有高度一致性，皮尔逊相关系数为0.8239[102] SuperCLUE中文竞技场介绍总结 * 平台性质：大模型中文竞技场是一个于2025年10月推出的交互式大众投票匿名评测平台，通过用户直接投票和Bradley-Terry模型计算排名[106] * 四大板块：包含编程、图像、视频、音频四大竞技场，下设共7个具体竞技场模式（如前端网页、文生图、文生视频、语音合成等），共有84个大模型参与评测[106] * 各板块排行榜前列： * 编程竞技场：Claude-Opus-4.5-Reasoning排名第一，Kimi-K2.5-Thinking国内第一[109] * 图像竞技场：图像编辑和文生图榜首均为Gemini-3-Pro-Image-Preview[111][112] * 视频竞技场：文生视频、图生视频、参考生视频榜首分别为Veo 3.1、可灵2.5 Turbo、Veo 1.1[114] * 音频竞技场：讯飞超拟人语音合成排名第一，Doubao-Seed-TTS 2.0第二[115] SuperCLUE专项测评基准介绍总结 * Agent系列基准： * EmbodiedCLUE-VLA（具身智能）：Gemini-3-Pro-Preview以79.61分领跑，字节跳动的Doubao-Seed-1.8-251228以75.24分取得国内第一[122][123] * SuperCLUE-DeepSearch（深度搜索）：GPT Agent以74.29分居首，华为的盘古R.7211模型以73.33分位列国内第一[128] * AgentCLUE-Mobile（手机GUI Agent）：中兴通讯的Nebula-GUI-V2以92.27分排名第一，字节跳动的Doubao-Seed-1.6-thinking-250715以89.86分紧随其后[132][133] * AgentCLUE-CUA（Computer Use Agent）：阿里巴巴的qwen3-vl-235b-a22b-thinking以87.37分排名第一[138] * SuperCLUE-DeepResearch（深度研究）：OpenAI的Deep Research产品以76.37分位居榜首，月之暗面的Kimi Researcher以58.65分位于国内第一[143][144] * 核心发现：在各类Agent测评中，模型在不同任务上表现差异显著，头部与尾部模型能力差距巨大，且国内头部模型在多个领域已能媲美国际顶尖模型[124][133][135][144]