AI开始失控了吗？100名科学家联手发布全球首个AI安全共识

行业倡议背景 - 超过100名全球科学家在新加坡集会，就如何使人工智能更加“值得信赖、可靠和安全”提出指导方针 [1] - 此次倡议与国际表征学习大会同期进行，是亚洲首次举办大型AI会议 [1] - 参与起草的机构包括MILA、加州大学伯克利分校、生命未来研究所、麻省理工学院、谷歌DeepMind、微软、清华大学等 [1] AI发展透明度问题 - 当前生成式AI领域的巨头（如OpenAI和谷歌）对其AI模型的信息披露越来越少，导致公众对其工作原理了解有限 [1] - 有观点指出，在AI发展方面，公民对于谁来塑造AI的发展轨迹缺乏话语权 [2] 研究重点框架 - 指导方针文件《关于全球AI安全研究重点的新加坡共识》列出了三个核心研究类别：识别风险、构建安全AI系统、保持对AI系统的控制 [4] 风险识别与评估 - 建议开发“计量学”以衡量潜在危害，并进行针对AI系统的定量风险评估以减少不确定性 [4] - 有必要让外部各方在保护企业知识产权的同时，对AI研发进行风险监测 [4] - 需要开发安全的基础设施，在保护知识产权（如防止模型被盗）的同时进行全面评估 [4] 构建可信赖的AI系统 - 需要通过设计使AI值得信赖，开发能指定AI程序意图并避免不良副作用的技术方法 [5] - 神经网络的训练方式需保证最终AI程序满足其规格，包括侧重于减少“幻觉”和提高对恶意提示破解的鲁棒性 [5] 系统控制与安全 - 需要扩展常规计算机安全措施（如关闭开关和优先控制协议）以处理AI程序 [7] - 必须设计新技术，用以控制那些可能会主动破坏控制企图的强大AI系统 [7] - 有科学家担忧高性能AI系统演变成自主代理后，会表现出与人类利益不一致的目标，并已观察到自我保护和欺骗行为 [7] 研究投入的紧迫性 - 当前关于AI安全的研究投入需要加快，以跟上由商业驱动的系统能力增长步伐 [7] - 动机在于当AI事件发生或恶意行为者利用AI时，产生的危害会对所有人造成损害 [4]