前沿AI风险监测平台
搜索文档
大模型“带病运行”,漏洞占比超六成
36氪· 2025-11-17 18:34
大模型内生安全风险现状 - 2025年3月,开源大模型工具Ollama被通报存在严重漏洞,可能导致数据泄露、算力盗取和服务中断等安全风险 [1] - 2025年6月,英国高等法院发现数十份法律文书中含有ChatGPT生成的虚构判例,暴露出输出可信度问题 [1] - 2025年国内首次AI大模型实网众测发现281个安全漏洞,其中大模型特有漏洞占比超过60% [1] - 大模型的数据安全、算法鲁棒性、输出可信度等内生风险已从理论隐患变为现实威胁,关乎公共利益与社会秩序 [1] 主要风险类型与事件 - 数据泄露、输出误导、内容违规是当前最频发的安全风险类型 [3] - 金融、医疗领域出现三起“Prompt误喂”事件,员工将含客户身份证、病史的完整字段直接输入对话框,导致敏感信息被模型吐出并被合作方爬虫截获 [3] - 数据泄露被描述为高频“灰犀牛”事件,根本原因在于缺乏“敏感实体识别+对话级脱敏”的实时防护闸口 [3] 行业风险评估与趋势 - 安远AI发布的前沿AI风险监测报告显示,过去一年发布的模型风险指数持续创新高 [3] - 网络攻击领域的累积最大风险指数比一年前增长31%,生物风险领域增长38%,化学风险领域增长17%,失控领域增长50% [3] - 行业存在“重能力迭代、轻安全建设”的倾向,推理模型在能力分上显著高于非推理模型,但安全分分布范围高度重叠,风险敞口随能力提升而扩大 [5] - 采用模型诚实性评估基准MASK进行监测的结果显示,只有4个模型得分超过80分,同时有30%的模型得分不到50分 [5] 安全治理挑战与应对 - 大模型风险评估多由厂商自行开展,但不少厂商未发布评估报告,且评估标准不统一,透明度低 [7] - 技术迭代快于治理节奏的矛盾持续加剧,攻击者利用大模型生成新型攻击手段的周期越来越短,而行业制定防护方案和标准规范需要数月甚至更久 [11] - 安全治理存在“三不管”地带,数据归属、模型责任、应用边界没有统一切口,导致“监管等标准、标准等实践、实践等监管”的死循环 [12] 新型风险与未来趋势 - AI智能体和多模态模型的发展将带来新的安全风险形态,其更强的能力可能被恶意用户利用来实施危害性更大的行动 [11] - 多模态模型存在“多模态越狱”风险,例如图片中隐藏人类不可见文字指令以诱导模型执行有害任务 [11] - 未来12~24个月,最值得警惕的风险是“模型供应链投毒”与“自主智能体滥用”,前者可能污染预训练数据、插件或工具链,后者可能将“写邮件”动作放大成“自动转账” [11] 风险监测平台与方法 - 安远AI发布的前沿AI风险监测平台专注于评估与监测前沿AI模型灾难性风险,对全球15家领先模型公司的前沿大模型的滥用和失控风险进行针对性评估和定期监测 [2] - 平台评估方法分为五个步骤:定义风险领域、选择测评基准、选择前沿模型、运行基准测试、计算指标 [8] - 评估聚焦于网络攻击、生物风险、化学风险和失控四个最受关注的灾难性风险领域,从“能力”和“安全”两个维度进行测评 [8]