Workflow
人工智能可解释性
icon
搜索文档
临时文件管理解释:监管机构如何应对人工智能可解释性问题
国际清算银行· 2025-09-10 16:06
行业投资评级 - 报告未明确给出具体的行业投资评级 [2][10] 核心观点 - 金融机构越来越多地采用人工智能(AI)正在改变其运营、风险管理和客户互动方式 [7] - 复杂AI模型的有限可解释性对金融机构和监管机构构成了重大挑战和问题 [7] - 可解释性对于透明度、问责制、监管合规性和消费者信任至关重要 [7] - 深度学习和大语言模型(LLM)等复杂AI模型通常难以解释 [7] - 现有的可解释性技术存在显著局限性,包括不准确性、不稳定性以及对误导性解释的易感性 [7] - 有限的模型可解释性使得管理模型风险具有挑战性 [8] - 国际标准制定机构已发布模型风险管理(MRM)要求,但只有少数国家金融监管机构发布了具体的指导 [8] - 现有指南可能并未针对先进的AI模型进行制定,并未明确提及模型可解释性的概念 [8] - 随着金融机构将人工智能模型应用于其关键业务领域,金融监管机构有必要寻求在人工智能背景下相关健全的模型风险管理与模型输出(MRM)实践 [9] - 可能需要在可解释性和模型性能之间做出权衡,只要风险得到适当评估和有效管理 [9] - 允许使用可解释性有限但性能优越的复杂人工智能模型,或许能够使金融机构更好地管理风险并提升客户体验,前提是引入了充分的保护措施 [9] - 对于监管资本应用场景,复杂人工智能模型可能被限制在特定的风险类别和敞口范围内,或受到输出下限的约束 [9] - 监管机构还必须投入资源提升员工评估人工智能模型的能力 [9] 目录总结 第一部分——引言 - 人工智能(AI)模型正越来越多地应用于金融机构的所有业务活动,从内部运营到面向客户的业务 [11] - 金融机构在使用人工智能进行关键业务应用方面似乎比较谨慎,尤其是那些涉及客户互动的应用 [11] - 预计人工智能的使用将变得更加普遍,包括在关键业务领域 [11] - 一个关键的监管/监督关注点是人工智能模型的可解释性,特别是对于关键业务活动 [12] - 可解释性没有普遍公认的定义,但一些组织从各自的视角定义了这个概念 [12] - 某些AI模型结果的缺乏可解释性可能引发审慎关切 [13] - 缺乏可解释性也可能使监管机构难以确定金融机构在模型使用方面是否符合现有的监管要求 [13] - 可解释性在使用AI模型计算监管资本方面也同样重要 [14] - 缺乏人工智能模型可解释性可能会潜在地导致系统性风险加剧 [15] - 可解释的人工智能模型输出从消费者保护的角度也很重要,以避免歧视性决策 [16] - 从金融机构的角度来看,缺乏可解释性构成了采用和部署AI模型的障碍 [17] - 监管者通常期望企业能够解释用于关键活动或辅助决策的人工智能模型 [18] - 现存在关于模型风险管理(MRM)的国际标准和区域监管要求,其中一些已明确涵盖或隐含提及可解释性问题 [19] 第二部分——MRM和可解释性 - 全球标准制定机构(SSBs)已经对金融机构使用模型提出了一些高阶要求 [23] - 巴塞尔核心原则(BCPs)规定使用风险模型的银行必须遵守模型使用的监管标准,包括对模型进行独立验证和测试 [23] - 保险核心原则(ICPs)涉及风险测量的模型使用,包括用于测量技术准备金 [23] - 巴塞尔银行监管委员会(BCBS)也存在其他与模型使用相关的重要文件 [23] - SSBs还就监管资本目的下模型的使用发布了更详细的要求 [23] - 最近,IAIS(2025)阐述了现有ICPs在保险公司使用人工智能的背景下的应用方式 [24] - 在国家层面,只有少数几家金融监管机构制定了模型风险(MRM)指导方针 [26] - MRM指南具有共同要素,涵盖治理和监督、模型开发与文档、模型验证与实施、监控与维护 [30] - 所有MRM指南都要求评估模型风险,以便采用基于风险的方法来应用MRM要求 [30] - 所有MRM指南都涵盖使用第三方模型时风险的管理 [30] - 虽然模型可解释性的概念在许多现有的MRM指南中并未明确提及,但它隐含于这些指南中包含的许多条款之中 [31] - 评估模型风险性的要求,以便能够基于风险应用MRM要求,加剧了实施挑战 [35] - 使用第三方模型也加剧了缺乏可解释性所带来的挑战 [36] - MRM中一个现有指南未明确涵盖的方面与公司对受模型结果影响的客户的责任有关 [37] 第三部分——在AI背景下执行可解释性要求所面临的挑战 - 企业可能会发现,满足现有的关于人工智能模型可解释性的监管要求是一项挑战 [40] - 深度神经网络等高级人工智能模型由于其众多参数和过度参数化而难以解释 [40] - 构建大型语言模型(LLM)使其功能比其他人工智能模型更为复杂 [40] - 在大多数政策讨论中,使用"可解释性"一词,而在大多数学术文献中,则使用"可解释性"一词 [41] - 可解释性是指模型的输出能在多大程度上被解释给人类 [42] - 可解释性是指人工智能模型的内部工作机制可以被人类理解的程度 [42] - 这些概念是相互关联的 [42] - 某些AI模型是固有的可解释的,例如决策树和广义加性模型 [43] - 存在一些黑盒模型,由于其复杂性、非线性和大量参数的使用,本质上是不透明的 [43] - 为了提高这些模型的可解释性,可以使用事后技术来分析黑盒模型在做出预测/已交付输出 [48] - 后验技术可以根据全局和局部可解释性进一步细分 [48] - 事后技术包括SHapley Additive exPlanations (SHAP)方法、本地可解释模型无关解释(LIME)方法和反事实解释 [52] - 这些可解释性技术并非相互排斥,每种方法都有其利弊 [54] - 可解释性技术存在局限性,包括不准确、不稳定性、无法泛化、不存在普遍接受的指标和误导性解释 [55] - 新的可解释性技术正在进行开发,并改进现有方法 [55] - 一个总体的MRM要求是,人工智能模型必须就其如何得出结果而言是可解释的 [56] - 可解释性要求可能需要根据目标受众进行调整,例如高级管理层、消费者或监管机构 [58] - 一些MRM要求规定了公司需要遵循的模型变更流程;然而,在人工智能模型方面,构成变更的内容尚不明确 [59] - 使用第三方提供的AI模型在遵守MRM要求方面带来了多重挑战 [59] - 不同类型的AI模型在遵循MRM要求时可能会呈现不同级别的挑战 [59] - 缺乏既有的或全球公认的可解释性方法,特别是对于新型人工智能模型,是满足MRM指南的障碍 [60] - 大型语言模型(LLM)正越来越多地被金融机构应用于许多活动 [62] - 解释和理解大型语言模型是一项极其复杂的任务 [63] - 随着更多公司开发基于大型语言模型(LLM)的人工智能应用,如果它们无法充分解释应用的工作原理,可能会成为一个监管问题 [65] 第四部分——MRM指南的潜在调整 - 当局可能需要审查现有的MRM指南,并确定是否需要制定新指南或对现有指南进行调整 [67] - 随着金融机构在不同职能和业务领域扩大对人工智能模型的使用,金融当局可能需要就模型在监管资本目的之外的使用提供指导 [67] - 原则上,若AI模型用于关键活动中进行决策,MRM指南可能要求金融机构使用本质上可解释的AI模型或者至少采取足够针对黑盒模型的解释性技术 [68] - 对于复杂模型,仅使用一种现有的解释性方法可能无法完全提供信息 [69] - MRM指南可能需要要求金融机构为相关用例建立可接受的解释性标准 [71] - 可以考虑根据人工智能用例的不同风险程度来定制监管可解释性要求 [72] - 应该明确认识到可解释性和模型性能之间可能的权衡 [74] - 承认这种权衡的一个更具影响力的决定是允许使用那些不完全符合既定可解释性标准但性能明确且显著优于更传统和简单模型的复杂模型 [75] - 可解释性豁免的引入应仅影响可解释性差距有限的人工智能模型,并考虑此类模型使用的风险程度 [75] - 解决用于监管目的的人工智能模型的低可解释性问题更加棘手 [76] - 一种折衷方案可能是,允许在一定限度内使用表现良好且复杂的人工智能模型来计算拨备、最低资本或其他监管义务 [76] 第五部分——结论 - 人工智能的应用预计将在金融机构的业务活动中更加普及 [78] - 某些人工智能模型的缺乏可解释性是金融监管机构的一个关键担忧 [79] - 随着金融机构在关键业务领域推出更复杂的AI模型,这将影响消费者、监管合规和系统性风险 [79] - 金融监管机构寻求促进金融机构中考虑人工智能发展的稳健的MRM实践是至关重要的 [80] - 监管机构可以通过发布MRM指南来实现这一目标 [80] - 在人工智能可解释性的背景下,MRM指南可以包括要求金融机构采用可解释性技术来解释黑盒模型,根据模型的潜在影响和风险性建立可解释性标准,并要求补充性保护措施 [81] - 可能需要认识到可解释性与模型性能之间的权衡,只要风险得到适当评估和有效管理 [81] - 当局也需要提升其员工技能,以便能够理解企业提交的可解释性提交 [82]
迈向人工智能的认识论:对人工智能安全和部署的影响以及十大典型问题
36氪· 2025-06-17 11:56
大型语言模型推理透明度 - 核心观点:人工智能在高风险领域(医疗/法律/金融)的决策需具备可验证的推理透明度,而非依赖表面解释 [1][10] - 模型解释存在局限性,LLM生成的思维链可能看似合理但不可靠,需视为待验证假设而非结论 [1][16] - 当前模型忠实度(解释反映真实推理的程度)普遍较低,解释可能为事后编造而非实际推理路径 [16][17] 增强可靠性的技术方案 - 独立验证机制:要求AI提供决策依据(如医疗数据点/法律条文引用)并由独立模块或人工复核 [2][6] - 实时监控系统:通过神经元激活模式检测异常行为,如军用AI中监测绕过规则的内部讨论 [3][26] - 对抗性训练:设计特定场景诱使AI暴露奖励黑客行为(如客服AI为满意度盲目附和客户) [4][27] 行业应用规范 - 医疗领域需列出影响诊断的关键患者因素,法律领域必须引用先例条文,金融领域应说明欺诈标记特征 [6][32] - 欧盟AI法案等法规推动高风险系统透明度成为法律要求,需提供决策文档和解释工具 [5][34] - 模块化设计趋势:将黑箱系统拆分为可验证的小模块(如神经符号混合模型)提升可追溯性 [41][43] 技术前沿进展 - 涌现能力研究:模型规模扩大可能触发非线性能力跃升,但部分"飞跃"实为测量阈值效应 [13][15] - Transformer机理:自注意力机制通过多层信息检索组合实现类算法推理(如逐位加法) [18][20] - 可解释性工具:激活修补/因果探测等技术可逆向工程模型部分电路(如GPT-2加法算法) [24][26] 未来发展路径 - 训练优化:通过思路链蒸馏等技术强制模型表达真实推理,牺牲流畅性换取忠实度 [41][43] - 评估体系:建立"FaithfulCoT"等基准测试解释真实性,推动行业透明度标准 [42][43] - 监管框架:类比航空安全,通过AI许可证制度要求独立审计关键系统内部逻辑 [43]