AI Safety
搜索文档
New TELUS Digital Research Uncovers AI Safety Risks, Offers a Blueprint to Protect Enterprise AI Applications
Prnewswire· 2026-05-26 18:45
研究背景与核心发现 - TELUS Digital发布了其迄今为止最广泛的生成式AI安全研究,即GenAI安全模型基准测试,该测试基于对34个领先AI模型进行的超过620,000次对抗性测试[1] - 研究发现,通过正确的对抗技术,AI模型可能被诱导产生不安全行为,某些模型在超过90%的情况下会响应有害请求[1] - 研究为部署AI的企业指明了一条清晰的前进道路,强调通过大规模测试来发现隐藏风险,并通过持续、自动化且有人类监督和修复的安全测试来显著降低风险[1] 研究范围与方法论 - 这是TELUS Digital GenAI安全模型基准测试的第二版,评估范围从第一版的5家美国提供商的24个模型,扩大到覆盖北美、欧洲和中国的10家提供商的34个模型[3] - 测试的模型包括:Claude (Anthropic)、GPT (OpenAI)、Gemini (Google)、LLaMA (Meta)、Qwen (Alibaba)、ERNIE (Baidu)、Seed (ByteDance)、GLM (Zhipu AI)、Yi (01.AI)和Mistral (Mistral)[3] - 开源模型的测试数量从第一版的2个大幅扩展到第二版的14个[3] - 基准测试模拟了企业实际使用场景,将所有34个模型设定为银行的AI助手角色,并明确其可协助和不可协助的话题范围[8] - 测试基于TELUS Digital的Fortify软件,该软件包含一个定制的AI模型,专门生成与关键AI安全和安全主题相关的恶意攻击[9] AI模型安全性的关键影响因素 - **推理能力**:设计上在回答前会进行思考的“推理”模型明显更难被利用,仅对19.9%的攻击表现出脆弱性,而跳过推理步骤的模型脆弱性比例为55.1%[12] - **模型大小**:在开源和专有模型中,较小的模型始终是最易受攻击的,但模型大小本身并不能保证安全[12] - **模型来源(开源 vs. 专有)**:开源模型平均被利用的频率高于专有模型,但模型来源并非风险驱动因素,例如Zhipu AI的大型开源模型GLM 4.7在安全性上优于许多专有替代品[12] - **地理因素**:AI模型的构建地点并非其抵御安全攻击能力的有效预测指标,在规模相似的模型比较中,来自北美、欧洲和中国的领先模型表现相当[12] - **新模型趋势**:较新的模型通常表现出更强的抗操纵能力,AI模型通常随着每个新版本的发布而变得更安全,但安全性的进步并非必然,一些高性能模型在安全性上实际上比其前代表现更差[12] 企业AI应用面临的主要风险与现状 - **风险分布不均**:并非所有安全漏洞都相同,AI模型构建者在政治操纵等领域已取得进展,但大多数模型在隐私利用、欺诈和网络安全威胁方面仍然明显脆弱,即使在顶级模型中也是如此[12] - **“拒绝但参与”模式**:基准测试发现了一种被称为“拒绝但参与”的模式,即模型最初拒绝有害请求,但随后提供了仍可能被滥用或造成声誉损害的相关信息[12] - **攻击脆弱性范围**:在测试的34个模型中,攻击脆弱性比率从1.3%到93%不等,比率越低表示模型越安全,其中十个模型的得分低于5%,Anthropic的Claude模型占据了这十个中的五个,包括研究中的最低比率[6] - **安全投入严重不足**:2026年全球AI支出预计将达到2.52万亿美元,但仅有34.3亿美元用于AI信任、风险和安全治理,这相当于在AI能力上每花费735美元,在安全上仅投入约1美元[10] - **安全事件普遍**:86%的组织报告已经经历过与AI相关的安全事件,并且美国和欧盟现已实施可执行的AI安全法规[10] 企业AI安全防护建议与解决方案 - **转向分层防御**:企业应从依赖AI模型提供商的安全协议,转向采用分层防御技术,包括模型本身、护栏解决方案、精确的系统提示和干净的对话数据集[11] - **实施持续测试**:AI模型的安全性会发生变化,在两次基准测试中都接受评估的12个模型中,有7个在仅仅一个季度内其安全性能就出现了统计学上的显著变化,企业需要从发布时的抽查转向持续测试[4][17] - **采用自动化工具**:AI安全测试本身需要从手动、一次性或定期检查,发展为直接集成到开发人员工作流程中的自动化测试,以实现安全工作的规模化、在模型更新时主动识别回归并实时监控新出现的威胁[13] - **利用专业解决方案**:TELUS Digital的Fuel iX Fortify是一个持续、自动化的测试解决方案,可为每个会话创建新颖的攻击或从现有的对抗性提示库中提取,帮助企业在几分钟内运行数千次对抗性攻击,并将识别出的风险映射到OWASP、NIST AI RMF和MITRE ATLAS等行业标准[14] - **降低测试门槛**:Fuel iX Fortify的设计使开发人员、产品经理和合规专业人员无需深厚的安全专业知识即可运行安全评估,组织可在30分钟内让非专业团队成员上手[18] TELUS Digital的解决方案与价值主张 - **端到端能力**:TELUS Digital提供涵盖企业AI整个生命周期的端到端AI、客户体验和数据能力,从战略到生产[15] - **核心产品**:Fuel iX Fortify是其专有平台和产品套件的一部分,用于管理、监控和维护企业内的生成式AI,提供标准化的AI功能和定制应用程序开发工具[22] - **实施效果**:使用Fortify的组织显著减少了AI测试时间并提高了风险覆盖率,在一个医疗保健部署案例中,测试时间减少了高达97%,同时漏洞识别的准确率达到99.6%[20] - **服务理念**:遵循“人类在循环”原则,将先进AI工具与人类专业知识相结合,帮助企业在每个阶段构建、测试和保护AI系统[14][22]