平衡创新与严谨

报告行业投资评级文档未提及相关内容报告的核心观点 - 大语言模型（LLMs）作为生成式人工智能的一种，可提升评估中文本数据收集、处理和分析的效率、广度和有效性，但使用前需验证响应的准确性，应谨慎将其集成到评估工作流程中 [17] - 基于结构化文献综述（SLR）这一评估中常见用例，报告展示了LLMs实验的良好实践，包括确定相关用例、规划工作流程、明确资源分配和预期成果、选择合适评估指标、开发有效提示等，旨在实现LLMs潜力与严谨性的平衡 [18] - 评估办公室应用人工智能的实验是一个持续学习、适应和协作的过程，需不断探索和分享经验，以标准化和扩展评估LLMs性能的框架 [21] 根据相关目录分别进行总结关键要点 - 识别相关用例，确保实验与LLMs能力有效匹配的用例一致 [9] - 规划用例内的工作流程，将用例分解为详细步骤和任务，便于有效应用LLMs并实现组件复用 [10] - 明确资源分配和预期成果，团队需就实验所需资源和成功标准达成共识 [11] - 制定适当的抽样策略，将数据集划分为训练、验证、测试和预测集，以促进有效提示开发和模型评估 [12] - 选择合适的模型评估指标，针对不同任务选择和计算相应指标，以确定实验成功与否 [13] - 迭代开发和验证提示，通过测试和改进提示，提高模型响应的准确性和相关性 [14] 关键实验考量 - 识别用例时，需确保LLMs应用能在给定资源和约束下比传统方法增加足够的增量价值，常见用例包括文本分类、总结、情感分析和信息检索等 [23][24] - 识别用例内的机会，需创建详细工作流程，发现可重复使用LLMs能力的组件，如文本分类、总结、合成和信息提取等 [26][27] - 就资源和成果达成共识，团队需明确实验所需的人力资源、技术、时间线和成功定义，确保预期成果与资源分配相匹配 [33][34] - 选择合适的指标衡量LLMs性能，针对不同任务选择和计算相应指标，如文本分类使用标准机器学习指标，生成任务使用人类评估标准 [36][38] 实验及结果 - 实验聚焦于SLR文献识别步骤的组件测试，包括基于LLM的文本分类，并对文本总结、合成和信息提取进行实验 [49] - 实验结果显示，LLMs在各生成任务中表现良好，文本总结任务的相关性、连贯性和忠实度较高，信息提取任务的忠实度优秀但相关性较低，文本合成任务忠实度高但有信息遗漏，文本分类任务经多次迭代后结果满意 [56] 新兴良好实践 - 代表性抽样需将数据集划分为四个不同集合，确保模型评估指标有助于提高提示在预测集上的泛化能力，包括理解输入数据分布、识别和纳入代表性观察等步骤 [67][68] - 开发初始提示时，好的提示应包含模型角色、任务说明、相关文本和响应要求等组件，并遵循检查模板、分解任务、尝试不同格式等原则 [75][77] - 评估模型性能时，需手动审查模型响应，评估响应的忠实度，设置特定上下文的指标阈值，使用注释和验证指南，检查编码器间可靠性，并使用混淆矩阵进行文本分类 [88][89] - 细化提示时，根据验证结果分析不准确原因，调整提示内容，但避免创建过于复杂的提示，防止过拟合 [95][96] 未来展望 - 世界银行和国际农业发展基金独立评估部门在评估实践中应用人工智能的实验是一个持续学习、适应和协作的过程，需不断探索和分享经验 [97] - 未来需进一步研究、实验和协作，以标准化和扩展评估LLMs性能的框架，包括在不同组织和背景下分享实验和试点经验 [98]