Workflow
中文大模型
icon
搜索文档
中文大模型基准测评2025年年度报告-SuperCLUE
搜狐财经· 2026-02-05 15:35
2025年中文大模型年度测评核心结论 - 海外闭源模型在总榜上仍占据领先地位,Anthropic的Claude-Opus-4.5-Reasoning以68.25分位列第一,Google的Gemini-3-Pro-Preview和OpenAI的GPT-5.2(high)紧随其后 [1] - 国产大模型正从“跟跑”向“并跑”跨越,月之暗面的Kimi-K2.5-Thinking(61.50分)和阿里巴巴的Qwen3-Max-Thinking(60.61分)分别位列全球第四和第六 [1] - 技术演进呈现三大阶段特征:从早期百模大战与多模态萌芽,到中期多模态爆发与推理突破,再到2025年智能体崛起与生态重构,混合专家(MoE)架构成为主流 [1] 模型能力格局与任务表现 - 在六大任务测评中,海内外模型的推理能力已高度对齐,国内模型在代码生成(Kimi-K2.5-Thinking全球第一)和智能体任务上整体领先 [2] - 国内模型在精确指令遵循和幻觉控制方面仍是短板,与海外模型相比平均分差距分别超过7分和近2分 [2] - 闭源模型在复杂任务上保持优势,而开源模型在代码生成领域实现了单点突破 [2] - 根据模型象限分析,国产模型如Kimi-K2.5-Thinking、Qwen3-Max-Thinking等位于“卓越领导者”象限,在推理和应用能力上均表现领先 [31][32] 场景应用与垂直领域 - 通用智能体仍处于基础阶段,复杂任务处理能力不足 [2] - 在多模态领域,国内模型在图生视频、中文适配等场景表现突出,字节跳动、快手相关模型领跑细分榜单 [2] - 在垂直领域中,金融、医疗、汽车等行业大模型落地加速,国产模型在本土语境适配中具备天然优势 [2] - 全景图显示,国内大模型生态覆盖通用、视觉、语音及多个垂直行业,如百度的ERNIE-5.0、阿里的Qwen系列、字节的豆包、腾讯的混元等均在列 [14] 性价比与效能分析 - 国内模型在性价比上优势显著,例如Kimi-K2.5-Thinking等位于高性价比区间,价格仅为海外同类模型的1/3 [2] - 海外模型在推理效能上更优,高效能区间均为海外模型,国内模型在速度与质量的协同优化上仍有提升空间 [2] - 海内外大模型对比显示,在数学推理、科学推理等任务上,海外模型平均分领先,但在代码生成和智能体任务上,国内模型平均分更高或差距较小 [44] 技术演进与关键进展 - 自2022年底以来,AI大模型发展经历了三个时期:百模大战与多模态萌芽、多模态爆发与推理突破、2025年的智能体崛起与生态重构 [16] - 2025年,国产开源模型已占据全球半壁江山,DeepSeek、Qwen3等系列主导了开源生态 [1] - 2025年全年测评数据显示,国内模型的头部排名竞争激烈,月之暗面、深度求索、阿里巴巴、字节跳动等公司的模型在不同月份轮番登顶 [18] 代表性模型深度分析 - 在总榜中,排名前四的国内模型为:Kimi-K2.5-Thinking(61.50分,总榜第四)、Qwen3-Max-Thinking(60.61分,总榜第六)、Doubao-Seed-1.8-251228(Thinking)(58.17分)、DeepSeek-V3.2-Thinking(57.55分) [40] - 在开源模型分榜中,排名前三的均为国产模型:Kimi-K2.5-Thinking(61.50分)、DeepSeek-V3.2-Thinking(57.55分)、GLM-4.7(56.22分) [40][42] - 在六大任务的国内Top3排名中,Qwen3-Max-Thinking在数学推理和智能体任务上位列国内第一,Kimi-K2.5-Thinking在代码生成上位列国内第一,DeepSeek-V3.2-Thinking在科学推理上位列国内第一 [36]
DeepSeek新版R1模型实际性能如何?第三方评测来了
南方都市报· 2025-06-05 20:26
模型性能提升 - 新版R1模型总体表现超过OpenAI的o3模型,但相比o4-mini(high)和Gemini 2 5 Pro Preview 05-06仍有差距 [1] - 新版R1模型在SuperCLUE测评中总分63 55分,比旧版提升1 61分,排名第四 [2] - 新版R1模型在数学推理能力测试中准确率从70%提升至87 5% [1] 技术优化与改进 - 新版R1模型基于DeepSeek V3基座,通过增加算力投入提升了思维深度与推理能力 [1] - 新版R1模型在数学、编程与通用逻辑等多个基准测评中领先国内其他模型 [1] - 新版R1模型针对"幻觉"问题优化,幻觉率降低45%-50% [4] 测评数据对比 - 新版R1模型指令遵循能力得分48 46分,比旧版高17 09分,但仍低于o3(66 95分)和o4-mini(high)(68 07分) [4] - 新版R1模型中文幻觉率降至13 86%,下降7 16个百分点,但相比豆包doubao-1 5-pro-32k(4 11%)仍有差距 [5] - 文本摘要和阅读理解任务的幻觉率优化最显著,分别降低9 27%和14 49% [5] 国际模型对比 - o4-mini(high)在SuperCLUE测评中得分最高(70 51分) [2] - Gemini 2 5 Pro preview 05-06得分66 48分,排名第二 [2]