Workflow
Llama2
icon
搜索文档
中文大模型基准测评2025年年度报告:2026开年特别版:含1月底重磅模型动态评测
SuperCLUE团队· 2026-02-05 10:00
报告行业投资评级 * 报告未对行业或公司给出明确的投资评级 报告的核心观点 * 海外闭源模型(Claude, Gemini, GPT)在综合能力上仍占据领先地位,但国产大模型正从“跟跑”向“并跑”阶段加速演进,在部分领域(如代码生成)已实现超越[23][24] * 大模型行业竞争格局呈现结构性差异:闭源阵营是“海外领先、国产追赶”,而开源阵营则是“国产主导、海外式微”[24] * 2025年大模型发展的关键趋势包括:多模态与推理能力突破、智能体(Agent)崛起与生态重构、混合专家(MoE)架构成为主流、以及中国开源模型在全球开源社区占据半壁江山[16] 2025年关键进展总结 * **全景图**:报告展示了涵盖通用、多模态、行业等领域的“2025年最值得关注的中文大模型全景图”,以及覆盖通用和垂直领域的“国内智能体产品全景图”[11][13] * **发展脉络**:自ChatGPT发布以来,大模型发展经历了“百模大战与多模态萌芽”、“多模态爆发与推理突破”、“智能体崛起与生态重构”三个时期[16] * **关键事件**:2025年1月深度求索发布的DeepSeek-R1开源推理大模型以超高性价比引爆全球;中国开源模型(Qwen3, DeepSeek, GLM等)在全球开源社区已占据半壁江山[16] * **竞争动态**:根据2025年全年月度测评,国内榜首位置在Kimi、DeepSeek、Qwen、豆包等模型间频繁更替,竞争激烈[18] 2025年年度测评结果与分析总结 * **总榜排名**:在2025年年度中文大模型基准测评总榜中,海外闭源模型Claude-Opus-4.5-Reasoning以68.25分位居榜首,Gemini-3-Pro-Preview(65.59分)和GPT-5.2(64.32分)紧随其后;国内最佳开源模型Kimi-K2.5-Thinking(61.50分)和最佳闭源模型Qwen3-Max-Thinking(60.61分)分列全球第四和第六[23][45] * **模型能力格局**:通过PCA分析,报告将模型划分为“综合能力待提升区”、“全能稳健型”(右上,侧重长链路规划与精准执行)和“硬核理科型”(右下,侧重深度思考与逻辑计算)等区域[41][42] * **六大任务国内Top3**: * 数学推理:Qwen3-Max-Thinking (国内第一,80.87分) * 科学推理:DeepSeek-V3.2-Thinking (国内第一,71.37分) * 代码生成:Kimi-K2.5-Thinking (国内第一,53.33分) * 智能体任务规划:Qwen3-Max-Thinking (国内第一,70.13分) * 精确指令遵循:ERNIE-5.0 (国内第一,37.53分) * 幻觉控制:GLM-4.7 (国内第一,83.85分)[43] * **海内外对比分析**: * 数学推理:国内头部模型(Qwen3-Max-Thinking)已追平海外最佳(Gemini-3-Pro-Preview,均为80.87分),但国内整体梯队靠后[52] * 代码生成:国产模型表现亮眼,Kimi-K2.5-Thinking(53.33分)超越海外最佳Grok-4(49.51分),尤其在Web Coding子任务上优势明显[56][60] * 智能体任务规划:海外头部模型(GPT-5.2,81.39分)优势显著[62] * 精确指令遵循与幻觉控制:海外头部模型领先优势显著,是国内模型的短板[64][70] * **开闭源对比分析**: * 闭源模型在科学推理、幻觉控制、精确指令遵循等任务上全方位领先[74][78][80][81] * 开源模型在推理能力上持续追赶,并在代码生成任务上实现头部突破,Kimi-K2.5-Thinking(53.33分)领先所有闭源模型[74][84] * **性价比与效能**:国内模型较海外模型具有更高的性价比;海外推理模型的推理效能整体上显著领先于国内推理模型[90][93] * **代表性模型**: * **Kimi-K2.5-Thinking**:优势在于代码生成(尤其是Web Coding)和智能体任务规划能力,需提升精确指令遵循和幻觉控制[96] * **Qwen3-Max-Thinking**:优势在于复杂推理(数学推理80.87分)和智能体任务规划,需提升幻觉控制、精确指令遵循和代码生成能力[100] * **评测一致性**:SuperCLUE基准测评成绩与人类评估(以LMArena为代表)具有高度一致性,皮尔逊相关系数为0.8239[102] SuperCLUE中文竞技场介绍总结 * **平台性质**:大模型中文竞技场是一个于2025年10月推出的交互式大众投票匿名评测平台,通过用户直接投票和Bradley-Terry模型计算排名[106] * **四大板块**:包含编程、图像、视频、音频四大竞技场,下设共7个具体竞技场模式(如前端网页、文生图、文生视频、语音合成等),共有84个大模型参与评测[106] * **各板块排行榜前列**: * **编程竞技场**:Claude-Opus-4.5-Reasoning排名第一,Kimi-K2.5-Thinking国内第一[109] * **图像竞技场**:图像编辑和文生图榜首均为Gemini-3-Pro-Image-Preview[111][112] * **视频竞技场**:文生视频、图生视频、参考生视频榜首分别为Veo 3.1、可灵2.5 Turbo、Veo 1.1[114] * **音频竞技场**:讯飞超拟人语音合成排名第一,Doubao-Seed-TTS 2.0第二[115] SuperCLUE专项测评基准介绍总结 * **Agent系列基准**: * **EmbodiedCLUE-VLA(具身智能)**:Gemini-3-Pro-Preview以79.61分领跑,字节跳动的Doubao-Seed-1.8-251228以75.24分取得国内第一[122][123] * **SuperCLUE-DeepSearch(深度搜索)**:GPT Agent以74.29分居首,华为的盘古R.7211模型以73.33分位列国内第一[128] * **AgentCLUE-Mobile(手机GUI Agent)**:中兴通讯的Nebula-GUI-V2以92.27分排名第一,字节跳动的Doubao-Seed-1.6-thinking-250715以89.86分紧随其后[132][133] * **AgentCLUE-CUA(Computer Use Agent)**:阿里巴巴的qwen3-vl-235b-a22b-thinking以87.37分排名第一[138] * **SuperCLUE-DeepResearch(深度研究)**:OpenAI的Deep Research产品以76.37分位居榜首,月之暗面的Kimi Researcher以58.65分位于国内第一[143][144] * **核心发现**:在各类Agent测评中,模型在不同任务上表现差异显著,头部与尾部模型能力差距巨大,且国内头部模型在多个领域已能媲美国际顶尖模型[124][133][135][144]
不再依赖美国!新加坡国家AI计划“换心”阿里千问
观察者网· 2025-11-25 18:49
合作事件概述 - 阿里云与新加坡国家人工智能计划联合发布国家级大模型"海狮"v4,该模型将全面基于阿里通义千问Qwen3-32B开源模型构建,不再沿用美国技术路线 [1] 技术优势与选型原因 - 西方主流模型如Meta Llama 2对东南亚语言内容的训练数据占比极低,仅为0.5%,存在严重的数据匮乏问题 [3] - 基于西方模型训练的早期版本存在区域常识错误,例如将委内瑞拉列为东盟成员国,暴露了本地化应用的短板 [4] - 东南亚地区盛行的"语码转换"文化使得标准美式AI模型难以理解复杂的混合语境 [4] - 阿里Qwen3模型在预训练阶段使用了36万亿个token的数据,覆盖全球119种语言和方言,具备"原生多语言能力" [5] - Qwen-Sea-Lion-v4采用字节对编码分词器,能更精准处理泰语、缅甸语等没有明显词间空格的语言,提升翻译准确度和推理速度 [5] 商业落地与市场契合度 - 模型经过优化可在配备32GB内存的消费级笔记本电脑上运行,降低了东南亚中小企业的使用门槛 [6] - 合作模式为双向融合,阿里提供通用推理底座,AISG贡献了经过清洗的1000亿个东南亚语言token,其东南亚内容浓度是Llama2的26倍 [6] - 该地区数字经济规模奔向万亿美元,拥有6亿人口,但一直是西方AI的"盲区" [3] 行业格局与影响 - 此次合作是继硅谷人士及企业采用Kimi、智谱模型后,中国开源模型在全球市场取得的又一成绩 [3] - 事件反映出全球AI格局正在发生微妙变化,中国企业凭借对多语言环境的理解和性价比优势,正成为"全球南方"国家构建主权AI的首选合作伙伴 [7] - 新加坡国家AI计划的认可意味着在"主权AI"和"多语言适配"赛道上,中国开源大模型已具备替代甚至超越硅谷巨头的能力 [3]
“训练成本才这么点?美国同行陷入自我怀疑”
观察者网· 2025-09-19 19:28
文章核心观点 - DeepSeek以远低于美国同行的成本实现了高性能AI模型训练 其训练成本仅为29.4万美元 基础大语言模型构建成本约600万美元 显著低于OpenAI超过1亿美元的训练成本[1][2] - 公司通过开源策略和高效计算资源使用 推动高端AI技术民主化 改变了行业竞争规则[6][7] - 公司首次在同行评审论文中披露技术细节 回应了美国对其芯片获取及技术复制的不实指控[4][5] 成本与效率突破 - DeepSeek-R1模型训练仅使用512块英伟达H800芯片 成本为29.4万美元[2] - 基础大语言模型构建总成本约600万美元 远低于美国公司公开披露的数字[1] - 采用网络爬取数据与自生成数据结合的节俭策略 仅聚焦计算投入 实现成本优化[6] 技术方法与行业影响 - 使用蒸馏技术提升模型性能并降低计算成本 通过Meta开源模型Llama构建部分精简版本[5] - 训练数据包含OpenAI模型生成内容 但属网络爬取过程中的无意结果 非刻意复制[5] - 模型实现顶级性能与高度效率 推动AI竞争从GPU数量导向转向资源效率导向[6][7] 芯片使用与合规性 - 研发前期使用A100芯片进行小模型实验 R1模型训练全程采用合法采购的H800芯片集群[4] - 在512块H800芯片上进行80小时训练 直接回应美国关于违规使用H100芯片的指控[4] 行业地位与认可 - 成为全球首个经过同行评审的主流大语言模型 获《自然》杂志刊登[2] - Hugging Face专家确认其方法可被第三方复现 无需依赖OpenAI秘密数据[6] - 被评价为"推翻仅靠先进芯片主导AI竞赛"的假设 实现"高端AI民主化"[1][6]