中文大模型基准测评2025年年度报告-SuperCLUE

2025年中文大模型年度测评核心结论 - 海外闭源模型在总榜上仍占据领先地位，Anthropic的Claude-Opus-4.5-Reasoning以68.25分位列第一，Google的Gemini-3-Pro-Preview和OpenAI的GPT-5.2(high)紧随其后 [1] - 国产大模型正从“跟跑”向“并跑”跨越，月之暗面的Kimi-K2.5-Thinking（61.50分）和阿里巴巴的Qwen3-Max-Thinking（60.61分）分别位列全球第四和第六 [1] - 技术演进呈现三大阶段特征：从早期百模大战与多模态萌芽，到中期多模态爆发与推理突破，再到2025年智能体崛起与生态重构，混合专家（MoE）架构成为主流 [1] 模型能力格局与任务表现 - 在六大任务测评中，海内外模型的推理能力已高度对齐，国内模型在代码生成（Kimi-K2.5-Thinking全球第一）和智能体任务上整体领先 [2] - 国内模型在精确指令遵循和幻觉控制方面仍是短板，与海外模型相比平均分差距分别超过7分和近2分 [2] - 闭源模型在复杂任务上保持优势，而开源模型在代码生成领域实现了单点突破 [2] - 根据模型象限分析，国产模型如Kimi-K2.5-Thinking、Qwen3-Max-Thinking等位于“卓越领导者”象限，在推理和应用能力上均表现领先 [31][32] 场景应用与垂直领域 - 通用智能体仍处于基础阶段，复杂任务处理能力不足 [2] - 在多模态领域，国内模型在图生视频、中文适配等场景表现突出，字节跳动、快手相关模型领跑细分榜单 [2] - 在垂直领域中，金融、医疗、汽车等行业大模型落地加速，国产模型在本土语境适配中具备天然优势 [2] - 全景图显示，国内大模型生态覆盖通用、视觉、语音及多个垂直行业，如百度的ERNIE-5.0、阿里的Qwen系列、字节的豆包、腾讯的混元等均在列 [14] 性价比与效能分析 - 国内模型在性价比上优势显著，例如Kimi-K2.5-Thinking等位于高性价比区间，价格仅为海外同类模型的1/3 [2] - 海外模型在推理效能上更优，高效能区间均为海外模型，国内模型在速度与质量的协同优化上仍有提升空间 [2] - 海内外大模型对比显示，在数学推理、科学推理等任务上，海外模型平均分领先，但在代码生成和智能体任务上，国内模型平均分更高或差距较小 [44] 技术演进与关键进展 - 自2022年底以来，AI大模型发展经历了三个时期：百模大战与多模态萌芽、多模态爆发与推理突破、2025年的智能体崛起与生态重构 [16] - 2025年，国产开源模型已占据全球半壁江山，DeepSeek、Qwen3等系列主导了开源生态 [1] - 2025年全年测评数据显示，国内模型的头部排名竞争激烈，月之暗面、深度求索、阿里巴巴、字节跳动等公司的模型在不同月份轮番登顶 [18] 代表性模型深度分析 - 在总榜中，排名前四的国内模型为：Kimi-K2.5-Thinking（61.50分，总榜第四）、Qwen3-Max-Thinking（60.61分，总榜第六）、Doubao-Seed-1.8-251228(Thinking)（58.17分）、DeepSeek-V3.2-Thinking（57.55分） [40] - 在开源模型分榜中，排名前三的均为国产模型：Kimi-K2.5-Thinking（61.50分）、DeepSeek-V3.2-Thinking（57.55分）、GLM-4.7（56.22分） [40][42] - 在六大任务的国内Top3排名中，Qwen3-Max-Thinking在数学推理和智能体任务上位列国内第一，Kimi-K2.5-Thinking在代码生成上位列国内第一，DeepSeek-V3.2-Thinking在科学推理上位列国内第一 [36]