中文大模型 - 财报，业绩电话会，研报，新闻

中文大模型

搜索文档

中文大模型基准测评2025年年度报告-SuperCLUE

搜狐财经· 2026-02-05 15:35

2025年中文大模型年度测评核心结论 - 海外闭源模型在总榜上仍占据领先地位，Anthropic的Claude-Opus-4.5-Reasoning以68.25分位列第一，Google的Gemini-3-Pro-Preview和OpenAI的GPT-5.2(high)紧随其后 [1] - 国产大模型正从“跟跑”向“并跑”跨越，月之暗面的Kimi-K2.5-Thinking（61.50分）和阿里巴巴的Qwen3-Max-Thinking（60.61分）分别位列全球第四和第六 [1] - 技术演进呈现三大阶段特征：从早期百模大战与多模态萌芽，到中期多模态爆发与推理突破，再到2025年智能体崛起与生态重构，混合专家（MoE）架构成为主流 [1] 模型能力格局与任务表现 - 在六大任务测评中，海内外模型的推理能力已高度对齐，国内模型在代码生成（Kimi-K2.5-Thinking全球第一）和智能体任务上整体领先 [2] - 国内模型在精确指令遵循和幻觉控制方面仍是短板，与海外模型相比平均分差距分别超过7分和近2分 [2] - 闭源模型在复杂任务上保持优势，而开源模型在代码生成领域实现了单点突破 [2] - 根据模型象限分析，国产模型如Kimi-K2.5-Thinking、Qwen3-Max-Thinking等位于“卓越领导者”象限，在推理和应用能力上均表现领先 [31][32] 场景应用与垂直领域 - 通用智能体仍处于基础阶段，复杂任务处理能力不足 [2] - 在多模态领域，国内模型在图生视频、中文适配等场景表现突出，字节跳动、快手相关模型领跑细分榜单 [2] - 在垂直领域中，金融、医疗、汽车等行业大模型落地加速，国产模型在本土语境适配中具备天然优势 [2] - 全景图显示，国内大模型生态覆盖通用、视觉、语音及多个垂直行业，如百度的ERNIE-5.0、阿里的Qwen系列、字节的豆包、腾讯的混元等均在列 [14] 性价比与效能分析 - 国内模型在性价比上优势显著，例如Kimi-K2.5-Thinking等位于高性价比区间，价格仅为海外同类模型的1/3 [2] - 海外模型在推理效能上更优，高效能区间均为海外模型，国内模型在速度与质量的协同优化上仍有提升空间 [2] - 海内外大模型对比显示，在数学推理、科学推理等任务上，海外模型平均分领先，但在代码生成和智能体任务上，国内模型平均分更高或差距较小 [44] 技术演进与关键进展 - 自2022年底以来，AI大模型发展经历了三个时期：百模大战与多模态萌芽、多模态爆发与推理突破、2025年的智能体崛起与生态重构 [16] - 2025年，国产开源模型已占据全球半壁江山，DeepSeek、Qwen3等系列主导了开源生态 [1] - 2025年全年测评数据显示，国内模型的头部排名竞争激烈，月之暗面、深度求索、阿里巴巴、字节跳动等公司的模型在不同月份轮番登顶 [18] 代表性模型深度分析 - 在总榜中，排名前四的国内模型为：Kimi-K2.5-Thinking（61.50分，总榜第四）、Qwen3-Max-Thinking（60.61分，总榜第六）、Doubao-Seed-1.8-251228(Thinking)（58.17分）、DeepSeek-V3.2-Thinking（57.55分） [40] - 在开源模型分榜中，排名前三的均为国产模型：Kimi-K2.5-Thinking（61.50分）、DeepSeek-V3.2-Thinking（57.55分）、GLM-4.7（56.22分） [40][42] - 在六大任务的国内Top3排名中，Qwen3-Max-Thinking在数学推理和智能体任务上位列国内第一，Kimi-K2.5-Thinking在代码生成上位列国内第一，DeepSeek-V3.2-Thinking在科学推理上位列国内第一 [36]

中文大模型

混合专家（MoE）架构

Artificial Intelligence

Claude-Opus-4.5-Reasoning

Google Gemini-3-Pro-Preview

OpenAI GPT-5.2 (high)

中文大模型

混合专家（MoE）架构

Artificial Intelligence

Claude-Opus-4.5-Reasoning

Google Gemini-3-Pro-Preview

OpenAI GPT-5.2 (high)

DeepSeek新版R1模型实际性能如何？第三方评测来了

南方都市报· 2025-06-05 20:26

模型性能提升 - 新版R1模型总体表现超过OpenAI的o3模型，但相比o4-mini(high)和Gemini 2 5 Pro Preview 05-06仍有差距 [1] - 新版R1模型在SuperCLUE测评中总分63 55分，比旧版提升1 61分，排名第四 [2] - 新版R1模型在数学推理能力测试中准确率从70%提升至87 5% [1] 技术优化与改进 - 新版R1模型基于DeepSeek V3基座，通过增加算力投入提升了思维深度与推理能力 [1] - 新版R1模型在数学、编程与通用逻辑等多个基准测评中领先国内其他模型 [1] - 新版R1模型针对"幻觉"问题优化，幻觉率降低45%-50% [4] 测评数据对比 - 新版R1模型指令遵循能力得分48 46分，比旧版高17 09分，但仍低于o3(66 95分)和o4-mini(high)(68 07分) [4] - 新版R1模型中文幻觉率降至13 86%，下降7 16个百分点，但相比豆包doubao-1 5-pro-32k(4 11%)仍有差距 [5] - 文本摘要和阅读理解任务的幻觉率优化最显著，分别降低9 27%和14 49% [5] 国际模型对比 - o4-mini(high)在SuperCLUE测评中得分最高(70 51分) [2] - Gemini 2 5 Pro preview 05-06得分66 48分，排名第二 [2]

Seek .(US:SKLTY)

中文大模型

Artificial Intelligence

DeepSeek-R1-0528模型

o3模型

o4-mini(high)模型

Gemini 2.5 Pro preview 05 - 06模型

中文大模型

Artificial Intelligence

DeepSeek-R1-0528模型

o3模型

o4-mini(high)模型

Gemini 2.5 Pro preview 05 - 06模型