2025年中国大模型年度评测

报告行业投资评级未提及相关内容报告的核心观点 - 中国大模型与国际差距加速收敛，头部大模型整体评分接近国际均线，核心能力进入全球领先梯队 [2] - 大模型已成为“知识百科专家”，在知识类问题上表现几乎达满分 [2] - 深度推理与数学是模型实力的重要分水岭，大模型在逻辑推理与数学能力上表现差距显著 [3] - 中国大模型的性价比远超国际大模型，第一梯队大模型整体得分超越国际大模型，推理与生成成本远低于海外竞争对手 [3] - 多模态理解能力整体尚处于发展阶段，识别准确率低于80% [7] - 多模态理解的核心挑战是物体定位，物体定位维度识别准确率最低 [7] - 模型的艺术创作能力显著优于商业创作能力 [7] - 多模态生成的核心短板是指令遵循与文字生成，模型遵循指令存在偏差，大部分无法准确生成文字 [7] 根据相关目录分别进行总结中国大模型行业发展综述 - 发展路径：大模型从文本向多模态发展历经三阶段，初期聚焦模态理解与关联，中期扩展至模态生成能力，高级阶段实现任意模态转换与智能融合 [13][14] - 价值效益：人工智能技术在文案写作、绘画等方面提升效率、降低成本，优化工作流程，96.3%的人认为人工智能提升了工作效率，文案写作是应用最广泛的方向 [20][24][25] - 发展痛点：AI技术在文本和图像生成及理解上与人工相比有差距，总体识别准确率和复杂场景应对能力无法超越人类 [27][31] - 技术成熟性：多模态技术中，文本理解与生成技术成熟度高，图像、音频技术快速发展，视频技术因计算复杂度高尚需突破，广泛应用前需解决计算成本和质量等瓶颈 [32][34] 中国大模型评测背景介绍 - 评测背景与参与者：大模型技术进入全面发展阶段，竞争格局从百花齐放过渡到稳定发展，中国通用基础大模型领域竞争者约20家，多模态理解与生成能力取得显著突破，应用渗透至多个行业 [37][38] - 大语言评测参与者介绍：包括商汤科技、阿里云、腾讯云等多家企业的多个模型参与评测，给出了各模型的发布时间和发布情况 [43] - 多模态评测参与者介绍：分别列出了多模态理解和多模态生成评测的参评企业及模型名称，以及评测周期和调用形式 [45] 中国大模型评测结果 - 大语言评测篇：国际大模型整体表现优于中国大模型，通义千问、商汤日日新、腾讯混元以及智谱超越国际大模型均线，位居中国大模型第一梯队 [47][48] - 多模态评测：阿里云、商汤科技及腾讯混元三家企业表现卓越，位居综合排名前三甲，展现多模态领域前沿探索和技术优势 [47][48]