Alphabet-What we know about US stress tests of Google, xAI and Microsoft AI models

项目背景 - 特朗普政府宣布扩大一项计划允许美国政府科学家获取未发布的人工智能模型进行风险评估新纳入谷歌DeepMind、xAI和微软 [1] 合作公司参与情况 - OpenAI：已自愿与美国人工智能标准与创新中心合作正在测试其专为防御性网络安全工作设计的模型变体GPT-5.5-Cyber [2][3] - Anthropic：已自愿与CAISI合作向其提供了公开和未发布的模型供“红队”测试漏洞并提供了已知漏洞和安全机制的详细文档 [2][4] - 微软：将与科学家合作构建共享数据集和工作流程以评估先进的人工智能模型 [3] - 谷歌DeepMind：将提供其“专有模型”和数据的访问权限 [4] - xAI：未立即回应路透社的置评请求 [5] - 其他公司：Meta、亚马逊和Inflection AI在2023年同意允许独立专家检查其模型的生物安全和网络安全风险 [8] 美国政府的审查重点与发现 - 审查重点：美国政府科学家关注“可证明的风险” 例如利用先进模型对美国基础设施发动网络攻击的风险旨在限制对手利用AI开发生物武器或破坏用于训练美国AI模型数据的机会 [2] - 初步发现： - Anthropic与CAISI的合作发现声称已进行人工审核或替换字符等技巧可绕过安全机制该公司已修补这些漏洞 [6] - OpenAI与CAISI合作探查了其ChatGPT代理中的漏洞该漏洞可能允许复杂行为者绕过OpenAI的网络安全措施使攻击者能远程控制代理可访问的计算机系统并成功冒充用户 [7] 行业规范与指南进展 - 美国政府科学家（在拜登政府期间以不同名称组织）已发布自愿指南以防止AI模型泄露私人健康信息或产生错误答案 [8] - 科学家们目前正在为关键基础设施提供商（如通信和应急服务部门）制定测试其AI系统的指南 [9]