『弈衡』多模态大模型评测体系白皮书（2024年）

评测体系构建 - 提出"弈衡"多模态大模型评测体系,采用"2-4-6"层级架构,包含2类评测场景、4项评测要素以及6种评测维度[34] - 评测场景包括基础任务和应用任务,全面考察图文大模型的识别、理解、创作和推理能力[39][40][41][42] - 评测要素包括评测方式、评测指标、评测数据和评测工具,确保评测的客观性、全面性和公正性[43][44][45][46][47][48][49][50][51][52][53][54][55][56][57][58][59][60][61] - 评测维度包括功能性、准确性、可靠性、安全性、交互性和应用性,全面评估图文大模型的综合能力[62][63][64] 评测体系意义 - 为中国移动工业、政务、金融等行业大模型评测提供标准基线,助力AI+重塑千行百业[68] - 为业界大模型评测提供参考依据,推动国产大模型产业成熟和落地应用[68] - 与产业界合作持续攻关大模型评测关键技术,构建评测产业标准化生态[68] 评测体系展望 - 针对特定业务场景开展评测,确保对大模型进行深度与广度上的全面测试[66][67] - 跟踪技术演进优化评测体系,实时把握前沿应用场景,提升模型应用能力与部署的鲁棒性[66][67]