报告行业投资评级 未提及相关内容 报告的核心观点 - 中国大模型与国际差距加速收敛,头部大模型整体评分接近国际均线,核心能力进入全球领先梯队 [2] - 大模型已成为“知识百科专家”,在知识类问题上表现几乎达满分 [2] - 深度推理与数学是模型实力的重要分水岭,大模型在逻辑推理与数学能力上表现差距显著 [3] - 中国大模型的性价比远超国际大模型,第一梯队大模型整体得分超越国际大模型,推理与生成成本远低于海外竞争对手 [3] - 多模态理解能力整体尚处于发展阶段,识别准确率低于80% [7] - 多模态理解的核心挑战是物体定位,物体定位维度识别准确率最低 [7] - 模型的艺术创作能力显著优于商业创作能力 [7] - 多模态生成的核心短板是指令遵循与文字生成,模型遵循指令存在偏差,大部分无法准确生成文字 [7] 根据相关目录分别进行总结 中国大模型行业发展综述 - 发展路径:大模型从文本向多模态发展历经三阶段,初期聚焦模态理解与关联,中期扩展至模态生成能力,高级阶段实现任意模态转换与智能融合 [13][14] - 价值效益:人工智能技术在文案写作、绘画等方面提升效率、降低成本,优化工作流程,96.3%的人认为人工智能提升了工作效率,文案写作是应用最广泛的方向 [20][24][25] - 发展痛点:AI技术在文本和图像生成及理解上与人工相比有差距,总体识别准确率和复杂场景应对能力无法超越人类 [27][31] - 技术成熟性:多模态技术中,文本理解与生成技术成熟度高,图像、音频技术快速发展,视频技术因计算复杂度高尚需突破,广泛应用前需解决计算成本和质量等瓶颈 [32][34] 中国大模型评测背景介绍 - 评测背景与参与者:大模型技术进入全面发展阶段,竞争格局从百花齐放过渡到稳定发展,中国通用基础大模型领域竞争者约20家,多模态理解与生成能力取得显著突破,应用渗透至多个行业 [37][38] - 大语言评测参与者介绍:包括商汤科技、阿里云、腾讯云等多家企业的多个模型参与评测,给出了各模型的发布时间和发布情况 [43] - 多模态评测参与者介绍:分别列出了多模态理解和多模态生成评测的参评企业及模型名称,以及评测周期和调用形式 [45] 中国大模型评测结果 - 大语言评测篇:国际大模型整体表现优于中国大模型,通义千问、商汤日日新、腾讯混元以及智谱超越国际大模型均线,位居中国大模型第一梯队 [47][48] - 多模态评测:阿里云、商汤科技及腾讯混元三家企业表现卓越,位居综合排名前三甲,展现多模态领域前沿探索和技术优势 [47][48]
2025年中国大模型年度评测
沙利文·2025-03-12 07:30