报告行业投资评级 * 报告未对行业或公司给出明确的投资评级 报告的核心观点 * 海外闭源模型(Claude, Gemini, GPT)在综合能力上仍占据领先地位,但国产大模型正从“跟跑”向“并跑”阶段加速演进,在部分领域(如代码生成)已实现超越[23][24] * 大模型行业竞争格局呈现结构性差异:闭源阵营是“海外领先、国产追赶”,而开源阵营则是“国产主导、海外式微”[24] * 2025年大模型发展的关键趋势包括:多模态与推理能力突破、智能体(Agent)崛起与生态重构、混合专家(MoE)架构成为主流、以及中国开源模型在全球开源社区占据半壁江山[16] 2025年关键进展总结 * 全景图:报告展示了涵盖通用、多模态、行业等领域的“2025年最值得关注的中文大模型全景图”,以及覆盖通用和垂直领域的“国内智能体产品全景图”[11][13] * 发展脉络:自ChatGPT发布以来,大模型发展经历了“百模大战与多模态萌芽”、“多模态爆发与推理突破”、“智能体崛起与生态重构”三个时期[16] * 关键事件:2025年1月深度求索发布的DeepSeek-R1开源推理大模型以超高性价比引爆全球;中国开源模型(Qwen3, DeepSeek, GLM等)在全球开源社区已占据半壁江山[16] * 竞争动态:根据2025年全年月度测评,国内榜首位置在Kimi、DeepSeek、Qwen、豆包等模型间频繁更替,竞争激烈[18] 2025年年度测评结果与分析总结 * 总榜排名:在2025年年度中文大模型基准测评总榜中,海外闭源模型Claude-Opus-4.5-Reasoning以68.25分位居榜首,Gemini-3-Pro-Preview(65.59分)和GPT-5.2(64.32分)紧随其后;国内最佳开源模型Kimi-K2.5-Thinking(61.50分)和最佳闭源模型Qwen3-Max-Thinking(60.61分)分列全球第四和第六[23][45] * 模型能力格局:通过PCA分析,报告将模型划分为“综合能力待提升区”、“全能稳健型”(右上,侧重长链路规划与精准执行)和“硬核理科型”(右下,侧重深度思考与逻辑计算)等区域[41][42] * 六大任务国内Top3: * 数学推理:Qwen3-Max-Thinking (国内第一,80.87分) * 科学推理:DeepSeek-V3.2-Thinking (国内第一,71.37分) * 代码生成:Kimi-K2.5-Thinking (国内第一,53.33分) * 智能体任务规划:Qwen3-Max-Thinking (国内第一,70.13分) * 精确指令遵循:ERNIE-5.0 (国内第一,37.53分) * 幻觉控制:GLM-4.7 (国内第一,83.85分)[43] * 海内外对比分析: * 数学推理:国内头部模型(Qwen3-Max-Thinking)已追平海外最佳(Gemini-3-Pro-Preview,均为80.87分),但国内整体梯队靠后[52] * 代码生成:国产模型表现亮眼,Kimi-K2.5-Thinking(53.33分)超越海外最佳Grok-4(49.51分),尤其在Web Coding子任务上优势明显[56][60] * 智能体任务规划:海外头部模型(GPT-5.2,81.39分)优势显著[62] * 精确指令遵循与幻觉控制:海外头部模型领先优势显著,是国内模型的短板[64][70] * 开闭源对比分析: * 闭源模型在科学推理、幻觉控制、精确指令遵循等任务上全方位领先[74][78][80][81] * 开源模型在推理能力上持续追赶,并在代码生成任务上实现头部突破,Kimi-K2.5-Thinking(53.33分)领先所有闭源模型[74][84] * 性价比与效能:国内模型较海外模型具有更高的性价比;海外推理模型的推理效能整体上显著领先于国内推理模型[90][93] * 代表性模型: * Kimi-K2.5-Thinking:优势在于代码生成(尤其是Web Coding)和智能体任务规划能力,需提升精确指令遵循和幻觉控制[96] * Qwen3-Max-Thinking:优势在于复杂推理(数学推理80.87分)和智能体任务规划,需提升幻觉控制、精确指令遵循和代码生成能力[100] * 评测一致性:SuperCLUE基准测评成绩与人类评估(以LMArena为代表)具有高度一致性,皮尔逊相关系数为0.8239[102] SuperCLUE中文竞技场介绍总结 * 平台性质:大模型中文竞技场是一个于2025年10月推出的交互式大众投票匿名评测平台,通过用户直接投票和Bradley-Terry模型计算排名[106] * 四大板块:包含编程、图像、视频、音频四大竞技场,下设共7个具体竞技场模式(如前端网页、文生图、文生视频、语音合成等),共有84个大模型参与评测[106] * 各板块排行榜前列: * 编程竞技场:Claude-Opus-4.5-Reasoning排名第一,Kimi-K2.5-Thinking国内第一[109] * 图像竞技场:图像编辑和文生图榜首均为Gemini-3-Pro-Image-Preview[111][112] * 视频竞技场:文生视频、图生视频、参考生视频榜首分别为Veo 3.1、可灵2.5 Turbo、Veo 1.1[114] * 音频竞技场:讯飞超拟人语音合成排名第一,Doubao-Seed-TTS 2.0第二[115] SuperCLUE专项测评基准介绍总结 * Agent系列基准: * EmbodiedCLUE-VLA(具身智能):Gemini-3-Pro-Preview以79.61分领跑,字节跳动的Doubao-Seed-1.8-251228以75.24分取得国内第一[122][123] * SuperCLUE-DeepSearch(深度搜索):GPT Agent以74.29分居首,华为的盘古R.7211模型以73.33分位列国内第一[128] * AgentCLUE-Mobile(手机GUI Agent):中兴通讯的Nebula-GUI-V2以92.27分排名第一,字节跳动的Doubao-Seed-1.6-thinking-250715以89.86分紧随其后[132][133] * AgentCLUE-CUA(Computer Use Agent):阿里巴巴的qwen3-vl-235b-a22b-thinking以87.37分排名第一[138] * SuperCLUE-DeepResearch(深度研究):OpenAI的Deep Research产品以76.37分位居榜首,月之暗面的Kimi Researcher以58.65分位于国内第一[143][144] * 核心发现:在各类Agent测评中,模型在不同任务上表现差异显著,头部与尾部模型能力差距巨大,且国内头部模型在多个领域已能媲美国际顶尖模型[124][133][135][144]
中文大模型基准测评2025年年度报告:2026开年特别版:含1月底重磅模型动态评测