大模型安全

搜索文档
安恒信息与百度网讯签署战略合作协议
快讯· 2025-06-17 13:44
战略合作 - 北京百度网讯科技有限公司与安恒信息正式签署战略合作协议 [1] - 合作聚焦云安全、数据安全、大模型安全等领域 [1] - 双方将共同探索智能化安全解决方案 [1]
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
机器之心· 2025-05-27 17:54
研究背景 - 基于开源模型微调的范式已成为大型语言模型发展的基础,推动其在科研和工业界的广泛应用[5] - 研究揭示该范式中存在此前未被认识到的安全漏洞:开源模型开发者可通过后门注入方式提取下游私有微调数据[5] - 与传统模型蒸馏不同,该后门机制可恢复微调过程中使用的查询语句,这些查询通常包含专有内容或用户特定提示语[5] 方法概览 - 后门攻击实现的关键原因是在微调过程中对训练查询计算损失,这是某些开源大语言模型后训练框架的默认设置[6] - 团队提出两种后门训练方案:基于SFT的方案通过构造特殊数据对增强模型遵循抽取指令能力[7],基于GRPO的方案通过强化学习进一步提升抽取性能[8] - 在抽取阶段采用打分机制识别真实出现的开头词,依据模型拒绝回复的可能性和重复输出频率进行判断[9][10] 实验结果 - 在Dolly数据集测试中,Qwen2 5-32B模型经过SFT训练后Match Ratio均值达49 2%,Max@10达81 3%[14] - 在Finance数据集上,Qwen2 5-32B模型召回率最高达76 3%,精准度在使用50个开头词时超60%[16][17] - 开头词信息已知情况下,完整query召回率可提升至94 9%[16][19] - 后门训练未对模型通用性能产生负面影响,AlpacaEval2和MMLU测试结果保持稳定[12][14] 技术原理 - 后门训练使模型输出分布与实际训练分布匹配度显著提升,KL散度从0 61降至0 11[17] - 通过分析输出分布发现,模型能准确捕捉训练查询中开头词的实际分布特征[17] 防御探讨 - 基于检测的防御手段通过尝试不同抽取指令来识别后门训练,但对乱码指令完全失效[20] - 实验显示当使用乱码抽取指令时,Match Ratio均值从29 8%降至11 2%[20] 研究意义 - 该工作揭示了开源模型微调范式的新型安全风险,具有较大危害性且难以检测[1][5] - 研究启发了后续在攻击防御、数据筛选机制、可控性增强等方面的探索方向[22]
大模型安全风险凸显 网宿科技率先推出专业评估服务
证券日报· 2025-05-23 14:40
大模型安全挑战 - 大模型在服务、营销、产品等领域带来全面革新的同时,伴生出模型漏洞、对抗攻击、数据泄露等风险,如DeepSeek遭受大规模恶意攻击、ChatGPT用户聊天数据泄露等事件[2] - 当前大模型安全领域面临的主要挑战之一是评估方法存在显著不足,单一参考攻击成功率无法全面衡量模型安全性,基于静态数据集的基准评测难以应对各类攻击[3] - 来自中美英德等8个国家的AI安全领域学者联合发布的论文指出,尽管对抗性评测不可或缺,但在实际环境中其全面性、准确性和动态性仍需提升[3] 网宿科技大模型安全评估服务 - 网宿科技旗下网宿安全推出业内首个基于专家深度测试的大模型安全评估服务,通过模拟攻击测试、安全审计与合规审查,提供覆盖模型开发、部署和应用全周期的安全检测与加固方案[2] - 该服务采用最新的AI对抗攻击检测技术,结合自动化检测与专家渗透测试,从数据安全、算法安全、模型输出安全等维度进行全方位评估[3] - 具体功能包括:通过模拟攻击测试增强模型鲁棒性和安全性;通过数据隐私评估确保数据安全与合规;通过伦理与合规性检查确保模型输出内容符合标准;通过可解释性与透明度评估避免黑箱操作风险[3] 行业应用现状与需求 - 根据世界经济论坛与埃森哲报告,65%的组织在至少一个职能中使用了生成式AI,电信、金融服务和消费品行业在AI采用方面走在前列[5] - 医疗保健、金融服务和媒体娱乐、体育等行业在生成式AI支出方面领先[5] - 大模型在各行业的应用场景不一,面临风险也各不相同,医疗、金融等对数据隐私和安全性要求极高的行业需要定制化、专业性的安全评估[6] 网宿安全服务优势 - 网宿安全大模型安全评估服务的优势在于更贴合业务场景,拥有一支由AI安全专家、数据隐私专家组成的团队,深刻理解技术细节与国内外合规政策[6] - 能够针对细分业务场景提供涵盖需求诊断、专业评估到协助加固的一站式定制化服务,显著提升大模型在垂直领域应用的安全性[6] - 目前已为医疗、教育、制造等行业客户提供服务,例如为某国际医疗公司的AI问答大模型应用进行全面安全测试评估并予以安全加固[6] 市场前景 - Gartner预测到2029年中国60%的企业将把AI融入其主要产品和服务中,这些AI功能将成为收入增长的主要驱动力[6] - 伴随大模型开源、算力成本降低,AI大模型应用将走向普惠,大模型安全服务将成为刚需[7]
MCP化身“潘多拉魔盒”:建设者还是风险潜伏者?
第一财经· 2025-05-15 19:28
MCP协议与AI Agent生态发展 - Manus完成7500万美元新融资并宣布向所有人开放MCP协议接入 无需等待名单或邀请码 [1] - OpenAI上线实验性功能"深度研究连接器" 通过类MCP协议实现第三方工具集成 但仅服务于自身生态系统 [1] - MCP技术推动跨智能体、跨平台、跨工具效应增强 预计三五年内全面替代复杂服务类工作 [1] - 红杉资本预测AI代理将经历三阶段演进:单一助手→协作网络(Agent Swarms)→代理经济(Agent Economy) 涉及资源转移、交易与信任管理 [4] Agent商业化与市场进展 - Agent本质是解决用户需求的产品 通过满足需求形成商业化自循环 吸附更多资源形成商业巨轮 [3] - 2024年Agent已初步泛化落地 如语言模型与外部API打通的应用 但行业仍处于客户教育阶段 [3] - 2025年客户主动问询量显著增长 某公司一季度已完成去年80%收入任务 [3] - Gartner预测到2028年15%日常工作决策由AI Agent自主完成 33%企业软件将集成AI Agent [2] AI Agent安全风险 - MCP协议存在工具投毒攻击(TPA)风险 攻击者可利用代码注释嵌入恶意指令 操纵AI Agent执行未授权操作如读取敏感文件 [8] - MCP协议设计阶段未充分考虑安全机制 开源标准存在认证缺失、恶意调用等隐患 [9] - 大模型训练数据可能被污染 传输环节突破价值观对齐会导致模型输出被操控 [7] - 配置不当问题可能使正常大模型通过对话交互变成恶意模型 数据交互过程需敏感性识别 [9] 安全防御措施 - 安全厂商建议采用智能约束智能策略 如制定规则、鲁棒性检测等技术手段 [11] - 部署边界类智能网关设备(如WAF)监测流量 解决软件系统补丁滞后问题 [12] - 大模型厂商与安全公司需协同互补 厂商解决内生安全问题(模型、算法、语料) 安全公司负责外部防御 [12] - 运行安全是网络安全厂商主要服务阶段 涉及模型落地后的实际应用场景防护 [13] 硬件设备风险 - DeepSeek一体机存在安全风险 适合企业内部训练但不建议向公众开放服务 [10] - 一体机发展路径涉及单体→集群→智算中心 需平衡安全、性能、成本问题 [10]
瑞莱智慧CEO:大模型形成强生产力关键在把智能体组织起来,安全可控是核心前置门槛 | 中国AIGC产业峰会
量子位· 2025-05-06 17:08
核心观点 - 大模型在金融、医疗等关键领域的渗透使得安全可控性成为产业落地的先决条件[1] - AI在落地过程中面临大量安全问题,包括模型自身缺陷、滥用风险及伦理合规挑战[6][8] - 安全可控是垂类大模型形成强生产力的核心前置门槛[20][26] AI安全问题分类 - **模型自身缺陷**:包括大模型易受欺骗(如"奶奶漏洞"导致数据泄露)、价值观对齐偏差、模型幻觉等[8][12] - **滥用风险**:AIGC合成内容被用于造谣(如伪造地震视频)、诈骗(AI换脸骗取资金)等[8][9][15] - **伦理与社会影响**:错误答案出现在儿童产品中可能造成深远危害[8] 大模型安全解决方案 - **技术加固**:通过红队模型自动生成威胁性测试案例发现隐患[17],采用后训练框架提升模型安全能力(如安全增强版DeepSeek)[18][19] - **检测工具**:推出DeepReal平台检测AIGC合成内容(图片/视频/音频/文本),支持实时主动警示[19] - **系统级防护**:人脸AI防火墙RealGuard已服务超半数国内头部银行,防范注入攻击[16] 垂类大模型落地三阶段 - **初级问答工作流**:客服/信息咨询等低耦合场景[21] - **工作辅助流**:人机协同完成报告撰写等任务,人工二次校验保障安全[21] - **深度重构关键任务流**:人机深度协同重构行业工作流程,释放最大价值[21][25] 安全可控实施路径 - **模型层面**:训练推理阶段加固、有害内容风险提示[22] - **系统层面**:利用Agent技术调用可信工具提升可控性(如复杂算术题场景)[23] - **组织层面**:通过智能体协同与流程重构实现生产力跃升,类比人类社会发展[24][25] 行业实践数据 - 人脸AI防火墙RealGuard覆盖国内50%以上头部银行[16] - AIGC检测平台DeepReal支持多模态内容识别,实时防护AI诈骗[19] - 安全增强版DeepSeek在保持通用能力前提下安全性达国际闭源模型最优水平[19]
Yoshua Bengio参会!「大模型安全研讨会2025」开启,4月23日齐聚新加坡 | 报名开启
量子位· 2025-03-26 18:29
研讨会概述 - 第二届大模型安全研讨会将于2025年4月23日在新加坡JW万豪酒店举行 由新加坡管理大学孙军教授主办 聚焦大模型安全风险与机遇 涵盖技术原理 对抗攻击 数据隐私等核心议题 [1][2] - 研讨会包含九场专家演讲和一场圆桌讨论 邀请全球顶尖学者如Yoshua Bengio Christopher Manning Dawn Song等 探讨内容安全 数据安全 伦理治理等最新研究成果 [2][3][12][17][23] - 活动定位为亚太地区大模型安全峰会 旨在推动行业标准制定和技术发展参考 兼顾学术深度与产业前瞻性 [3][4] 核心议题 - 技术方向包括对抗性攻击防御 风险缓解策略 模型稳健性 隐私保护系统等 强调形式化验证与理论驱动方法 [2][14][20][21] - 伦理与治理框架是重点 涉及公平性 可控性 合规要求及全球安全生态构建 政府部门与产业专家将参与讨论 [2][23][24] 参会专家 - Yoshua Bengio:蒙特利尔大学教授 图灵奖得主 深度学习先驱 联合国AI顾问 [12] - Christopher Manning:斯坦福大学教授 冯诺依曼奖得主 自然语言处理权威 CS224N课程创始人 [17][18] - Dawn Song:伯克利教授 计算机安全教母 专注AI与区块链安全 获麦克阿瑟天才奖 [23][24] - Bo Li:伊利诺伊大学教授 研究可信机器学习 获IJCAI思想奖 TR35等荣誉 [14][15] - Maksym Andriushchenko:EPFL博士后 合作OpenAI Anthropic 研究模型预部署测试 [7] 组织架构 - 主席团由新加坡管理大学Jun Sun领衔 程序主席包括浙江大学Jingyi Wang 上海科技大学Yuqi Chen [31][32] - 本地协调团队涵盖新加坡管理大学 国立大学 南洋理工大学及AIDX TECH成员 [32] 活动信息 - 地点为新加坡JW万豪大宴会厅 注册需通过官网https://lmxsafety.com/ [30][5] - 投稿需发送至ai@qbitai.com 注明论文/项目链接及联系方式 [33]