2025金融大模型评测体系2.0版
搜索文档
金融大模型评测体系2.0版在上海发布
解放日报· 2025-12-29 09:41
2025金融大模型评测体系发布 - 2025金融大模型评测体系在上海发布,这是自去年全国首个金融大模型评测体系发布以来的首次全面升级至2.0版 [1] - 新版评测体系主要聚焦于标准引领、数据驱动、安全可信与生态共建四个方面 [1] - 该体系旨在为行业内缺乏权威评测标准的现状提供科学选型与能力对标的“标尺” [1] 评测体系的技术与数据构成 - 评测体系汇聚了4个公开数据集与22个自建数据集,总计约3.6万条评测数据 [1] - 采用了循环选项打乱机制和多样化提示词,并研发了金融裁判大模型 [1] - 实现了评测全流程的自动化与标准化 [1] 评测体系的服务对象与目的 - 该体系为上海金融领域的银行、券商、基金、投资等企业或机构提供权威、精准的大模型能力评估 [1] - 旨在助力相关机构进行大模型选型、优化及风险把控 [1] 2025年金融大模型评测结果概览 - 在最新评测体系下,今年金融大模型的测试结果全面超越去年,行业平均分从71.9分提升至87.37分 [2] - 测试结果显示,海内外大模型整体能力相差不大,但在中文领域,国内大模型处于领先水平 [2] 国内外金融大模型的优势领域对比 - 国内金融大模型在语言理解、术语消歧、法规政策更新和合规对齐等领域领先 [2] - 国外金融大模型则在数学计算、跨步推理、跨语言推理和超长文本处理上领先 [2]