报告行业投资评级 未提及相关内容 报告的核心观点 在人工智能不断发展的背景下大语言模型(LLMs)作为生成式人工智能的一种在评估中处理文本数据方面具有显著潜力,但使用时需验证其响应的准确性和可靠性;报告基于实验给出利用LLMs的关键经验和良好实践,旨在为评估部门多学科团队将LLMs负责任地融入工作流程提供实用资源 [2][17] 根据相关目录分别进行总结 关键要点 - 识别相关用例,确保实验与能有效发挥LLMs能力的用例相契合 [9] - 规划用例内的工作流程,将用例分解为详细步骤和任务,便于有效应用LLMs并实现组件复用 [10] - 明确资源分配和预期结果,团队需就实验所需资源和成功标准达成共识 [11] - 制定合适的抽样策略,将数据集划分为训练、验证、测试和预测集,以促进有效提示开发和模型评估 [12] - 选择合适的模型评估指标,针对不同任务选择相应指标衡量LLMs性能 [13] - 迭代开发和验证提示,通过不断测试和改进提示,提高LLMs响应质量 [14] 实验关键考虑因素 识别用例 - 实验应从识别LLMs能为文本数据分析带来显著附加值的领域开始,确保实验有目的且相关 [23] - 用例通常需满足文献表明有高价值应用,且当前评估实践效率低、分析浅或因文本量大无法进行的条件 [24] - 报告聚焦结构化文献综述(SLR)和评估综合两个用例,期望LLMs能改进其实施方式 [25] 识别用例内的机会 - 对于复杂用例需详细拆解分析步骤,了解LLMs的应用场景和方式 [26] - 创建详细工作流程,发现不同用例工作流程相似,且存在可重复使用LLMs能力的组件 [27] - SLR工作流程中有五个可利用LLMs的时机,包括筛选文档、提取信息、标注文本、总结文本和综合文本 [32] 就资源和结果达成共识 - 团队成员需就实验所需资源和预期结果达成一致,避免对LLMs应用产生不切实际的期望 [33] - 资源包括全职员工、技术和预算等,需明确LLMs应用的成功标准 [34] - 以SLR识别步骤为例,使用LLMs提高了效率和全面性,减少了人力投入 [35] 选择合适的指标衡量LLMs性能 - 需考虑明确维度来衡量LLMs在特定任务上的性能,不同评估对成功的指标要求可能不同 [36][37] - 文本分类任务使用标准机器学习指标,如召回率、精确率和F1分数等,并划分数据集以计算无偏估计 [38] - 文本总结、合成和信息提取任务使用忠实性、相关性和连贯性等标准评估,需根据具体情况确定可接受的指标值 [39][41][42] 实验及结果 - 实验未对完整SLR或评估综合工作流程进行测试,而是聚焦SLR文献识别步骤的组件,并对文本总结、合成和信息提取进行实验 [49] - 文本分类任务在多次迭代改进提示后取得较好结果,召回率为0.75,精确率为0.60 [53][55] - 文本总结任务中模型响应的相关性、连贯性和忠实性较高,信息提取任务忠实性好但相关性有待提高,文本合成任务忠实性好但有相关信息遗漏 [56] 新兴良好实践 代表性抽样 - 开发提示前将数据集划分为四个不同集合,有助于提高提示在预测集上的泛化能力 [67] - 了解输入数据分布,识别并纳入代表性观察,采用聚类等方法选择样本 [68][70] - 该抽样策略可确保样本语义多样性,增强解释性并支持提示改进,避免重复采样 [74] 开发初始提示 - 好的提示通常包含模型角色、任务说明、相关文本和响应要求等组件 [75] - 检查模型提示模板,将任务分解为具体步骤,尝试不同提示格式,包含请求理由、代表性示例、参考文献等内容 [76][77][79] - 提供“未知”或“不适用”选项,明确响应格式,检查边缘情况 [83][85][86] 评估模型性能 - 使用LLMs时需手动审查模型响应,评估响应的忠实性,设置特定上下文的指标阈值 [88][89][90] - 使用注释和验证指南,检查编码者间的可靠性,使用混淆矩阵总结分类模型性能 [91][92][93] 改进提示 - 根据验证结果分析不准确原因,改进提示,避免创建复杂提示导致过拟合 [95][96] 未来展望 - 世界银行和国际农业发展基金独立评估部门将继续探索AI在评估中的应用,注重风险承担、持续学习和跨专业对话 [97] - 需进一步研究、实验和合作,标准化和扩展评估LLMs性能的框架,分享实验经验和成果 [98]
平衡创新与严谨:人工智能评估的深思熟虑整合指南(指导说明)(英)2025
世界银行·2025-05-26 14:35