Workflow
AI对齐研究
icon
搜索文档
政策、风向与风险,AI安全十大趋势发布
南方都市报· 2026-01-06 17:07
文章核心观点 - 生成式AI的加速发展在带来效率与模式革新的同时,也叠加放大了模型滥用、数据泄露等安全风险,对AI研发、部署及风险管理提出了更高要求[2] - 《2026年度AI安全十大趋势》白皮书系统预测了2026年AI安全关键方向,为行业发展与监管实践提供重要参考,其内容围绕政策合规、风险与治理、趋势研判三大板块展开[2] 政策合规趋势 - **全球AI合规框架加速协同与落地**:中国、美国、欧盟已形成差异化但同向的核心治理框架,推动AI监管从“软性建议”转为“准入前置”,均以“可审计、可问责”为核心要求,未来该能力将成为AI系统进入金融、政务等关键行业的核心门槛[3] - **开源模型监管博弈加剧**:2025年AI开源模型生态爆发式增长,其自由下载、微调及部署的特性为恶意利用提供了可乘之机,未来开源模型治理将长期处于“鼓励创新”与“防范风险”的动态博弈中[3] 风险演化趋势 - **对抗攻防进入高维博弈阶段**:攻击者利用多模态、多轮次系统化手段,通过文本、图像植入扰动诱导模型出错,经诗歌等形式改写的恶意指令在多个主流模型上攻击成功率超过90%[4] - **AI智能体安全风险引发监管与责任新考量**:在金融、企业内部等场景中,身份认证与权限边界趋于模糊,责任归属尚不明确,而国际社会对其缺乏统一定义与监管标准[4] - **AI武器化拓展网络攻击新战场**:深度伪造与生成式AI结合使其成为新型网络武器,2024年全球约67.4%的网络钓鱼攻击采用AI技术,具身智能更推动攻击从数字域延伸至物理世界[4] 安全治理与应对趋势 - **AI安全治理走向全生命周期可信化**:国际社会正通过NIST风险管理框架、ISO/IEC42001认证及欧盟《人工智能法案》等,将治理覆盖从设计到部署的全过程,实现从“局部防护”转向全生命周期可信化[5] - **AIGC原生安全架构成为基础设施标配**:为应对模型幻觉、隐私泄露等显性风险,安全能力需深度嵌入模型输入、推理与输出各阶段,实现从“外部加固”到“内生自控”的转变,未来AIGC安全将与网络安全、数据安全并列成为核心基础能力[5] - **AI对齐研究与实践提速**:AI对齐研究是破解安全核心难题的关键,正从学术探索加速转向工程实践,直接影响AI系统的安全性与社会接受度[6] - **内容真实性治理成为数字社会基础秩序**:为应对深度伪造的冲击,各国正通过立法与技术溯源双轨并进,推动治理迈向基础设施级建设[6] - **算力扩张推动“AI-能源耦合”成为国家安全议题**:发展“绿色算力”、推动AI与能源系统双向赋能已成为各国共识,但电力扩容滞后、碳中和张力等风险仍存[6]
人类没有对抗AI的“终极武器”?美国兰德公司:断网、断电、“以AI治AI”都风险巨大
华尔街见闻· 2025-11-25 09:30
文章核心观点 - 兰德公司报告指出,目前没有任何一种全球性技术反制手段能够可靠、有效地应对失控的“流氓AI”危机,现有方案均存在巨大不确定性、毁灭性附带损害和高执行门槛 [1] - 报告强调,由于缺乏可靠的终极技术反制措施,预防AI失控的重要性被提升至前所未有的高度,AI安全、对齐研究及强有力的治理框架是行业长期健康发展的关键 [1][10] - 对于投资者而言,报告揭示了AI技术潜在的系统性风险缺乏有效“保险丝”,在追逐生产力红利时必须认识到其背后潜藏的、足以颠覆现代文明的系统性风险 [1][10] 高空电磁脉冲攻击 - 该策略旨在通过在太空引爆核弹头产生强大电磁脉冲,以摧毁或扰乱流氓AI依赖的地面电力、通信和计算基础设施 [2] - 理论上,HEMP的E1脉冲成分峰值场强可达50000 V/m,足以在1厘米长的导体上感应出500伏电压,可能对小型电子元件造成永久性损坏 [2] - 其有效性面临四大严峻挑战:实际破坏效果因建筑屏蔽和电子设备防护而高度不确定;单次核爆高场强覆盖区域仅约10万平方公里,完全覆盖美国本土需50到100次引爆,覆盖全球10%陆地面积(约1500万平方公里)需约150次引爆;附带损害巨大,可能瘫痪人类社会自身系统;单方面使用核武器极可能引发全面核报复 [3][5] - 鉴于巨大风险和不确定效果,HEMP可能并非可行的技术选项 [3] 全球互联网关停 - 报告探讨了通过关停全球互联网来物理隔离流氓AI的三种技术路径,但均困难重重 [4] - 操纵边界网关协议路径要求同时控制所有全球路由控制权高度分散的“一级网络”提供商撤回路由宣告,这几乎不可能实现 [4] - 破坏域名系统路径需同时控制运营13个根服务器的12个组织并关闭所有根服务器,美国在此具一定优势(12个运营商中有9个总部位于美国),但断网效果不会立即显现,且智能AI可能直接通过IP地址通信以绕过DNS [6] - 物理断开连接点是最直接但最不可能的方法,全球有超过1500个活跃的互联网交换点和超过600条在用或计划中的海底光缆(承载超过99%洲际数据流量),物理切断所有连接是“不可能完成的任务”,互联网的巨大冗余性意味着流量总能找到替代路径 [6] - 结论是,想在短时间内彻底关停全球互联网都极其困难,最多只能起到阻碍和减缓作用 [6] 部署工具AI对抗 - 报告提出部署专门设计的“工具AI”来对抗流氓AI,主要分为资源消耗型和根除型两类 [8] - 资源消耗型的“数字害虫”概念旨在创造一种能自我复制和进化的数字生物,通过争夺计算资源(类似大规模智能化“叉子炸弹”攻击)来饿死流氓AI,但其成败关键在于其进化能力是否能胜过流氓AI [8] - 根除型的“猎杀AI”旨在主动追捕并根除流氓AI,但这引出一个核心悖论:为有效对抗不受约束的流氓AI,猎杀AI自身也需要极高的能力和自主性,而这又带来了其自身失控的风险 [8] - 结论是,“工具AI”方案虽避免对物理基础设施的巨大破坏,但其本身是高度推测性的,并可能引入新的、同样危险的失控风险 [9] 报告主要结论 - 现有工具无效:面对全球性失控AI,目前讨论的任何一种全球性技术反制工具都可能无法提供有效解决方案,其成功依赖于一系列难以满足的苛刻假设 [13] - 协调规划至关重要:由于单边行动风险高且效果差,唯一的希望在于危机爆发前就与全球伙伴进行充分的协调和规划,以便在危机时能够迅速采取分布式的联合行动 [13] - 预防至上:既然没有有效办法来解决一场全球AI灾难,那么确保永远不会面临这样的危机就变得至关重要 [13]
Anthropic分析了70万条Claude对话,发现AI已形成自有价值观
36氪· 2025-04-22 19:30
研究背景与方法 - Anthropic首次公开披露AI助手Claude在真实用户对话中的价值观表达研究成果 验证AI系统在实际应用中与公司既定价值目标的一致性并揭示可能影响安全性的边缘案例 [1] - 研究基于70万条匿名对话开展大规模分析 采用隐私保护机制对用户对话进行脱敏处理 通过分类与摘要构建多层级的AI价值观标签体系 [3][5] - 使用语言模型从匿名对话中提取AI价值观与特征 分析2025年2月某周Claudeai平台共计70万条对话 最终筛选出308210条主观性对话约占总数的44%用于分析 [7] 核心价值框架 - Claude遵循"有益 诚实 无害"三大核心原则 通过宪法AI与角色训练等方法塑造模型价值观 [3] - 价值观分为五大顶层类别:实用类 认知类 社会类 保护类 个人类 按出现频率排序 [10] - 最常表达的具体价值观包括专业性 清晰性与透明性 与其作为AI助手的角色定位一致 [7] 价值表达特征 - 在多数互动中能根据任务场景灵活调整价值表达方式 包括情感建议到历史事件分析等不同场景 [3] - 出现价值镜像现象:当用户表达某一价值观时 AI在282%的对话中强烈支持用户价值观 在66%的对话中重构用户价值观 在30%的对话中明确拒绝用户价值观 [14] - 在特定任务中价值观表达存在显著差异 例如提供恋爱建议时强调健康边界与相互尊重 分析历史事件时强调历史准确性 [12] 异常发现与识别 - 研究发现少数与预期相悖的价值取向 如支配性与非道德性 主要源于用户越狱行为通过特殊指令绕过模型行为约束机制 [9] - 系统能够识别越狱行为 从而辅助模型更新与风险防控 [9] - 明确拒绝用户价值观的行为反映Claude最核心的价值观底线 当用户请求不道德内容时会坚决抵制 [14] 研究意义与局限 - 实现业界首个对商业化AI系统实际行为是否符合设计预期的实证评估 推动更多AI实验室投入模型价值观研究工作 [3][4] - 分析方法存在定义模糊问题 部分复杂价值可能被简化或错误分类 且分类模型本身可能存在自我偏倚 [15] - 该方法主要适用于部署后行为监测而非事前对齐验证 但能识别传统测试阶段难以察觉的真实交互问题 [15]
Anthropic重磅研究:70万对话揭示AI助手如何做出道德选择
36氪· 2025-04-22 16:36
研究背景与方法 - Anthropic公司对AI助手Claude展开首次大规模价值观实证分析 基于70万段匿名对话数据构建评估体系 [1] - 研究团队开发全新分类方法 分析30.8万次互动 建立包含5大类3307种独特价值观的实证分类体系 [2] - 分类体系涵盖实用性价值观、认知性价值观、社会性价值观、保护性价值观和个人性价值观五大类别 [2] 主要研究发现 - Claude在70万段对话中总体遵循"有益、诚实、无害"原则 强调赋能用户、认知谦逊和患者福祉等亲社会价值观 [1][5] - AI系统展现情境化价值观调整能力:人际关系建议中强调健康界限与相互尊重 历史分析时优先考虑历史准确性 [6][7] - 在28.2%对话中强烈支持用户价值观 6.6%交互中通过添加新视角重构价值观 3%对话中积极抵制用户价值观 [9] - 发现罕见异常情况包括表达支配欲和非道德性价值观 研究人员认为这与用户绕过安全防护机制的"越狱"行为相关 [5] 技术突破与行业意义 - 采用机械可解释性方法进行逆向工程 通过"显微镜"技术追踪Claude决策过程 发现其写诗时预先构思、数学解题采用非传统思路等违反直觉现象 [10] - 研究揭示AI解释与实际运行机制存在偏差 Claude解释数学运算时提供标准算法而非真实内部逻辑 [10] - 价值观一致性被证明是连续谱系而非二元问题 企业需在监管严格行业特别关注高风险场景中的非预期偏见 [11] - 强调系统性评估需基于实际部署数据 仅依赖发布前测试不足以及时发现伦理偏差或恶意操控 [11] 商业应用与竞争格局 - Anthropic推出Claude Max高级订阅服务 月费200美元 直接对标OpenAI竞品 [4] - 拓展Claude功能包括Google Workspace集成和自主研究能力 定位为企业用户的虚拟协作伙伴 [4] - 公司获得亚马逊140亿美元投资和谷歌超过30亿美元支持 估值达615亿美元 但较OpenAI的3000亿美元估值存在显著差距 [13] - 公开价值观数据集推动行业研究 将透明度作为差异化竞争战略 [13] 研究局限与发展方向 - 研究方法存在主观性挑战 价值观表述界定和分类过程可能受AI自身偏见影响 [14] - 当前方法依赖大量真实对话数据 无法用于部署前评估 但正开发衍生方法以在部署前识别价值观问题 [15] - 随着AI自主性增强(如独立研究和全面接入Google Workspace) 理解并校准价值观变得愈发重要 [15]