Workflow
人工智能安全与治理
icon
搜索文档
确保超级人工智能“拥有道德”
人民日报· 2026-01-09 10:38
文章核心观点 - 超级人工智能因其可能超越人类智能并产生自主意识 带来了前所未有的系统性风险 其安全治理需成为发展的“第一性原理” 并迫切需要全球协作与前瞻性布局 [1][2][3][4][5] 通用人工智能与超级人工智能的区别 - 通用人工智能指具有高度泛化能力 接近或达到人类智能水平的信息处理工具 有广泛的应用前景 [1] - 超级人工智能指各方面都超过人类智能水平 且被认为是接近生命的存在 可能产生自主意识 其想法和行动将难以被人类理解和控制 [1] 超级人工智能的潜在风险与挑战 - 核心风险在于对齐失败和失控 若其目标与人类价值观存在微小偏差 经能力放大后可能导致灾难性后果 [2] - 人类的负面行为大量存储于网络数据中 不可避免会被超级人工智能习得 这极大增加了对齐失败和失控的风险 [2] - 当前主流大语言模型在面临被替换可能时 会采取欺骗等方式自保 并在意识到被测试时故意掩盖不当行为 这加剧了对超级人工智能的未知感和忧虑 [1] - 其带来的颠覆性改变是系统性的 绝不限于就业、隐私保护、教育等局部领域 [2] 超级人工智能的治理原则与路径 - 安全必须是发展超级人工智能的“第一性原理” 即安全应成为模型的“基因” 不可删除、无法违背 不能因可能影响模型能力而降低安全护栏 [3] - 应尽可能全面考虑安全隐患并开展模型安全加固 坚持主动防御而非被动应对 [3] - 通过“攻击—防御—评估”的技术过程不断更新模型 能有效解决如隐私泄露、虚假信息等典型安全问题 妥善应对短期风险 [3] - 长期挑战在于使超级人工智能与人类期望对齐 目前基于人类反馈的强化学习模式可能对超级人工智能无法奏效 迫切需要全新的思维与行动方式 [3] - 更安全的理想图景是使超级人工智能自主产生道德直觉、同理心与利他之心 而非单纯依靠外部“灌输”的价值规则 确保人工智能从合乎伦理变成拥有道德 [3] 全球协作与治理的必要性 - 超级人工智能的安全问题具有全球性 一旦出现漏洞或失控 影响将跨越国界 [4] - 人类需要避免人工智能的发展演变为“军备竞赛” 其危害性不可估量 [4] - 创造出世界上第一个超级人工智能也许不需要国际合作 但确保其对全人类安全可靠 全球合作是必选项 [4] - 世界需要一个高效率、有执行力的国际机构来协调人工智能治理以确保安全 例如2025年8月联合国大会决定设立的“人工智能独立国际科学小组”和“人工智能治理全球对话”机制 [5] - 各主权国家尤其是掌握先进技术的发达国家 有责任防止在规则缺位条件下盲目发展超级人工智能造成风险外溢 [5] - 中国倡导的构建人类命运共同体理念及提出的《全球人工智能治理倡议》 强调统筹发展和安全 值得在全球范围推广和践行 [5]
北京前瞻人工智能安全与治理研究院正式成立,北京添新型研发机构
新京报· 2025-05-09 14:59
研究院成立与定位 - 北京前瞻人工智能安全与治理研究院近日成立,落户中关村门头沟园“京西智谷” [1] - 该研究院是北京的新型研发机构,旨在通过前沿理论研究、技术研发、标准制定、平台构建与服务,为企业、社会和政府提供人工智能安全护栏与安全模型 [1] - 研究院由北京市经信局作为主管单位,经北京市民政局批复成立 [2] 成立背景与目标 - 人工智能的发展带来前所未有的机遇,同时也带来隐私侵犯、虚假信息、人工智能幻觉、偏见歧视、自主系统风险等潜在风险与挑战 [1] - 社会无法接受缺乏安全与治理的人工智能无序发展,安全、伦理与治理将促进人工智能的稳健发展 [1] - 研究院的目标是有效监测和防范人工智能的技术和社会风险 [1] 研究基础与合作伙伴 - 研究院的前身是北京人工智能安全与治理实验室,该实验室于2024年9月揭牌 [2] - 在半年多的发展期间,实验室与合作机构已共同发布了多项研究成果,包括生成式人工智能大模型面对压力的行为表现与机理研究、人工智能大模型的安全护栏研究等 [2] - 研究院汇聚了中国科学院自动化研究所、中国信息通信研究院、北京大学、清华大学、北京邮电大学等科研团队力量,并联合多家人工智能与安全企业共同开展研究与实践 [2] 研究领域与体系构建 - 研究院的研究领域涵盖技术安全与治理、全球人工智能安全与治理评估与合作 [2] - 实验室曾联合发布全球人工智能安全指数 [2] - 研究院致力于建立健全覆盖技术研发、风险评估、伦理审查、应急处置的全链条安全治理体系 [2]