If-Then Commitments for AI Risk Reduction

报告行业投资评级无相关内容报告的核心观点 - 人工智能(AI)可能会带来一系列灾难性的国际安全风险,包括网络攻击能力的扩散和加速,以及开发化学或生物大规模杀伤性武器的能力 [5] - 如果-那么承诺是一个新兴的框架,用于处理这一挑战:如果一个AI模型具有能力X,则必须采取风险缓解措施Y,如果需要,我们将推迟AI的部署和/或开发以确保缓解措施到位 [5][15] - 如果-那么承诺可以由AI开发商自愿采用,也可能由监管机构强制执行 [5][6] - 如果-那么承诺可以通过两种方式减少AI带来的风险: (a)原型化、战斗测试和建立共识,作为潜在监管框架; (b)帮助AI开发商和其他人制定路线图,了解何时需要采取哪些风险缓解措施 [21][23] 根据目录分别进行总结如果-那么承诺的示例 - 确定一个触发额外风险缓解措施的能力阈值,即如果AI模型具有能够指导一个恶意行为者成功制造大规模杀伤性武器的能力,则需要采取额外的风险缓解措施 [15] - 如果AI模型具有上述能力,则 (a) 只能使用可靠失败的方法和环境进行部署; (b) 只能将模型存储在极不可能被恐怖分子获得的环境中。如果无法实施这些缓解措施,则不应部署或存储具有该能力的模型 [15] - 这种承诺可以减少具有该能力的模型带来的风险,而不会影响缺乏该能力的模型 [15] 操作化触发条件 - 可以通过各种实验来评估AI模型是否接近触发条件,从理想化的实验到更实用但更简单的测试 [26][27][29] - 评估和解释结果存在一些挑战,如模型在不同提示下的表现差异,以及测试任务难度低于实际关注的风险 [30][31] 操作化"那么"部分 - 部署安全性:训练模型拒绝危险请求,使用AI监控和报告危险请求,从模型中删除危险能力 [33] - 模型权重安全性:采取多种安全措施,如网络和计算安全控制,防止模型权重被盗 [34] - 需要建立第三方审计和监管机制,确保承诺得到遵守 [35][36][37]