大模型安全

搜索文档
奇安信韩永刚:大模型开发应用带来了新的安全隐患,AI安全还处于起步阶段
快讯· 2025-07-23 11:57
AI安全行业发展现状 - AI自身安全与传统安全存在显著差异 当前防护主要集中在AI研发测试环境、相关数据和应用安全领域 仍处于起步阶段[1] - 内容安全、认知领域对抗、智能体权限管控以及应用数据防护等领域仍面临较大技术挑战 这些领域将成为网络安全产业未来增量市场[1] AI对网络安全产业的影响 - AI技术将推动网络安全产业从劳动密集型向智力密集型转变 实现高水平安全能力的规模化供给[1] - AI技术有望显著提升安全产业整体效率 对供需两侧均产生增量效应[1] 大模型应用的安全风险 - 大模型的黑盒特性、多业务多人员连接、多维数据应用等特征带来新型安全隐患[1] - 大模型快速部署过程中缺乏有效的安全评估、防护和监测手段 存在较大安全风险[1] - AI安全除传统问题外 还面临内容安全等新型挑战[1]
金融机构构建跨行业生态体系
金融时报· 2025-06-24 11:11
数字金融安全挑战 - 金融科技快速发展带来数据泄漏、网络攻击、系统漏洞等安全问题,威胁金融市场稳定和用户利益 [1] - 数字金融安全复杂性、跨界性特征显著,数据安全、算法偏见、模型风险等问题可能导致客户信息被非法利用,影响金融决策准确性和公平性 [2] - 攻击者利用生成式AI自动化攻击方法,网络攻击每日超过6亿次,攻击频率与复杂性呈指数级攀升 [2] AI技术在金融安全中的应用与风险 - AI能助力风险防范,通过深度挖掘和分析数据精准识别欺诈行为,提前预警风险 [1] - AI可能成为风险"放大器",算法偏见导致不公平决策、数据滥用侵犯用户隐私、模型不可解释性等问题 [2] - 金融机构推动大模型安全活动前置到数据采集、模型研发等环节,建立数据研发、算力一体化防护体系 [5] 金融安全技术发展趋势 - 中国网络安全市场规模将从2023年的110亿美元增长至2028年的171亿美元,5年复合增长率9.2% [2] - 量子技术在金融安全体系构建与算力效能提升领域具有重要应用价值,尤其在跨境支付数据传输安全方面表现突出 [3] - 云化、服务化成为当前中国安全技术市场主要发展方向 [2] 金融机构的安全实践 - 金融机构在数据安全、网络防护、业务合规等多维度的实践直接影响金融安全的稳固性与可持续性 [4] - 光大银行设立一级部门负责大模型安全策略、评价评估和生命周期管理 [5] - 云边端模型可进行合理化分布式布局,维护金融数据安全;端侧模型将数据留在本地计算,隐私保护效果好 [5] 金融安全生态体系建设 - AI竞争是生态对生态的竞争,金融场景需探索软硬件全栈式国产化适配,形成生态护城河 [6] - 金融机构需积极参与生态协同,构建跨行业共建的安全防线 [6] - 从数据共享应用到AI合作生态,需联合力量做好创新应用和安全防护工作 [6]
第七届北京网络安全大会智慧能源安全论坛召开:行业共话能化安全建设新路径
中国化工报· 2025-06-18 14:30
智慧能源安全论坛核心观点 - 论坛主题为"韧性可信,协同有效",聚焦能源化工数字化转型中的网络安全挑战与应对策略,探索智慧能源安全的创新路径 [1] - 行业需关注建立适配大模型的纵深防御体系、守护核心"小数据"安全、增强能源产业链供应链安全韧性三大方向 [1] - 数据和智能正在重塑能源价值链,但安全是底线,需为大模型应用强基础、控权限、审数据、拦攻击 [1] 网络安全挑战与应对 - 当前国际局势复杂多变,智能体和AI垂直应用快速普及导致传统安全保护失灵 [1] - 需防范80%以上"裸奔"的大模型服务器风险 [1] - 避免企业核心竞争力因数据泄露崩塌 [1] - 安全管理应从"制度条文"转向"数据驱动",用科学指标评估阵地有效性 [2] "十五五"期间安全重点展望 - 安全体系需从网信域向生产域延伸,构建覆盖OT环境的纵深防御体系 [2] - 推进资产攻击面管理,解决底盘不清问题 [2] - 建立"四层防护+评估"的大模型安全空间应对大模型安全挑战 [2] - 强化实战化安全运营,通过AI赋能提升告警研判、策略处置效率 [2] 企业实践经验分享 - 中国海油通过梳理22种典型场景,设计数据安全标准化模板和工控安全专项方案 [2] - 以体系化思维打破"各自为战"局面,通过统一架构、标准和流程实现安全能力组件化融入业务 [2] - 石化盈科建立19个业务域分类体系,将数据分为5个级别,实现数据分类分级与防护策略精准匹配 [3] - 数据分级分类是安全防护的起点,需结合业务特点细化标准 [3] 论坛基本情况 - 由中国电机工程学会电力信息化专业委员会、中国能源研究会网络安全和信息化工作委员会主办 [3] - 奇安信集团承办 [3] - 200余位来自政府、学界的代表参会 [3]
华为发布天才少年AI挑战课题,汇聚全球智慧共探科技前沿
搜狐财经· 2025-06-18 03:01
华为"天才少年"招聘计划 - 公司发布"天才少年挑战课题",覆盖智能联接&计算、基础研究与创新、智能终端、云计算和智能汽车五大领域 [3] - 课题面向全球青年才俊,不限学校、专业、学历,旨在吸引顶尖人才成为行业技术领军人物 [6] - 计划始于2019年,持续强化人才建设与研发投入 [6] 研发投入与基础研究 - 2024年研发费用达1797亿元,占全年收入20.8%,近十年累计研发投入超12490亿元 [7] - 每年投入30亿-50亿美元用于基础理论研究,与高校合作探索未知领域 [7] - 基础研究课题包括大模型安全、智能成像/编辑、稀疏大模型架构等,体现公司对理论创新的重视 [4][7] 智能联接&计算领域课题 - 自主智能无线通信架构研究:构建高效无线通信架构应对未来需求 [3] - 昇腾强化学习系统研究:提升昇腾系统性能 [3] - AI集群全光交换网络研究:优化AI集群数据传输效率 [3] - AI Native系统软件架构研究:释放AI性能潜力 [3] - AI智能体技术研究:开发高自主决策能力的智能体 [3] 基础研究与创新领域课题 - 大模型安全关键技术:解决大模型应用中的安全风险 [4] - 智能成像/编辑技术:突破成像与图像编辑技术 [4] - 稀疏大模型架构与训练算法:降低模型训练成本 [4] - 端侧AI+OS垂直创新:探索端侧AI与操作系统融合 [4] 智能终端领域课题 - 世界模型理论突破:让终端更好模拟物理规律 [4] - 个性化与记忆增强:实现终端个性化定制 [4] - 多媒体算法研究:推动计算机视觉与多模态技术 [4] - 终端功放架构研究:优化信号传输质量 [4] 云计算领域课题 - 具身智能操作技术:赋予云端AI控制实体设备能力 [5] - 数字原生关键技术:探索数字原生时代核心技术 [5] - 媒体AI关键技术:解决媒体领域AI应用问题 [5] - 云网络基础设施研究:构建AI驱动的先进网络 [5] 智能汽车领域课题 - 端到端大模型训练优化:提升智能汽车领域模型效率 [6] - 自动驾驶VLA模型:研发先进自动驾驶技术 [6] - 智能座舱Agent协同:实现座舱内智能体协作 [6] - 底盘协同控制技术:提升行车安全与舒适性 [6]
安恒信息与百度网讯签署战略合作协议
快讯· 2025-06-17 13:44
战略合作 - 北京百度网讯科技有限公司与安恒信息正式签署战略合作协议 [1] - 合作聚焦云安全、数据安全、大模型安全等领域 [1] - 双方将共同探索智能化安全解决方案 [1]
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
机器之心· 2025-05-27 17:54
研究背景 - 基于开源模型微调的范式已成为大型语言模型发展的基础,推动其在科研和工业界的广泛应用[5] - 研究揭示该范式中存在此前未被认识到的安全漏洞:开源模型开发者可通过后门注入方式提取下游私有微调数据[5] - 与传统模型蒸馏不同,该后门机制可恢复微调过程中使用的查询语句,这些查询通常包含专有内容或用户特定提示语[5] 方法概览 - 后门攻击实现的关键原因是在微调过程中对训练查询计算损失,这是某些开源大语言模型后训练框架的默认设置[6] - 团队提出两种后门训练方案:基于SFT的方案通过构造特殊数据对增强模型遵循抽取指令能力[7],基于GRPO的方案通过强化学习进一步提升抽取性能[8] - 在抽取阶段采用打分机制识别真实出现的开头词,依据模型拒绝回复的可能性和重复输出频率进行判断[9][10] 实验结果 - 在Dolly数据集测试中,Qwen2 5-32B模型经过SFT训练后Match Ratio均值达49 2%,Max@10达81 3%[14] - 在Finance数据集上,Qwen2 5-32B模型召回率最高达76 3%,精准度在使用50个开头词时超60%[16][17] - 开头词信息已知情况下,完整query召回率可提升至94 9%[16][19] - 后门训练未对模型通用性能产生负面影响,AlpacaEval2和MMLU测试结果保持稳定[12][14] 技术原理 - 后门训练使模型输出分布与实际训练分布匹配度显著提升,KL散度从0 61降至0 11[17] - 通过分析输出分布发现,模型能准确捕捉训练查询中开头词的实际分布特征[17] 防御探讨 - 基于检测的防御手段通过尝试不同抽取指令来识别后门训练,但对乱码指令完全失效[20] - 实验显示当使用乱码抽取指令时,Match Ratio均值从29 8%降至11 2%[20] 研究意义 - 该工作揭示了开源模型微调范式的新型安全风险,具有较大危害性且难以检测[1][5] - 研究启发了后续在攻击防御、数据筛选机制、可控性增强等方面的探索方向[22]
大模型安全风险凸显 网宿科技率先推出专业评估服务
证券日报· 2025-05-23 14:40
大模型安全挑战 - 大模型在服务、营销、产品等领域带来全面革新的同时,伴生出模型漏洞、对抗攻击、数据泄露等风险,如DeepSeek遭受大规模恶意攻击、ChatGPT用户聊天数据泄露等事件[2] - 当前大模型安全领域面临的主要挑战之一是评估方法存在显著不足,单一参考攻击成功率无法全面衡量模型安全性,基于静态数据集的基准评测难以应对各类攻击[3] - 来自中美英德等8个国家的AI安全领域学者联合发布的论文指出,尽管对抗性评测不可或缺,但在实际环境中其全面性、准确性和动态性仍需提升[3] 网宿科技大模型安全评估服务 - 网宿科技旗下网宿安全推出业内首个基于专家深度测试的大模型安全评估服务,通过模拟攻击测试、安全审计与合规审查,提供覆盖模型开发、部署和应用全周期的安全检测与加固方案[2] - 该服务采用最新的AI对抗攻击检测技术,结合自动化检测与专家渗透测试,从数据安全、算法安全、模型输出安全等维度进行全方位评估[3] - 具体功能包括:通过模拟攻击测试增强模型鲁棒性和安全性;通过数据隐私评估确保数据安全与合规;通过伦理与合规性检查确保模型输出内容符合标准;通过可解释性与透明度评估避免黑箱操作风险[3] 行业应用现状与需求 - 根据世界经济论坛与埃森哲报告,65%的组织在至少一个职能中使用了生成式AI,电信、金融服务和消费品行业在AI采用方面走在前列[5] - 医疗保健、金融服务和媒体娱乐、体育等行业在生成式AI支出方面领先[5] - 大模型在各行业的应用场景不一,面临风险也各不相同,医疗、金融等对数据隐私和安全性要求极高的行业需要定制化、专业性的安全评估[6] 网宿安全服务优势 - 网宿安全大模型安全评估服务的优势在于更贴合业务场景,拥有一支由AI安全专家、数据隐私专家组成的团队,深刻理解技术细节与国内外合规政策[6] - 能够针对细分业务场景提供涵盖需求诊断、专业评估到协助加固的一站式定制化服务,显著提升大模型在垂直领域应用的安全性[6] - 目前已为医疗、教育、制造等行业客户提供服务,例如为某国际医疗公司的AI问答大模型应用进行全面安全测试评估并予以安全加固[6] 市场前景 - Gartner预测到2029年中国60%的企业将把AI融入其主要产品和服务中,这些AI功能将成为收入增长的主要驱动力[6] - 伴随大模型开源、算力成本降低,AI大模型应用将走向普惠,大模型安全服务将成为刚需[7]
MCP化身“潘多拉魔盒”:建设者还是风险潜伏者?
第一财经· 2025-05-15 19:28
MCP协议与AI Agent生态发展 - Manus完成7500万美元新融资并宣布向所有人开放MCP协议接入 无需等待名单或邀请码 [1] - OpenAI上线实验性功能"深度研究连接器" 通过类MCP协议实现第三方工具集成 但仅服务于自身生态系统 [1] - MCP技术推动跨智能体、跨平台、跨工具效应增强 预计三五年内全面替代复杂服务类工作 [1] - 红杉资本预测AI代理将经历三阶段演进:单一助手→协作网络(Agent Swarms)→代理经济(Agent Economy) 涉及资源转移、交易与信任管理 [4] Agent商业化与市场进展 - Agent本质是解决用户需求的产品 通过满足需求形成商业化自循环 吸附更多资源形成商业巨轮 [3] - 2024年Agent已初步泛化落地 如语言模型与外部API打通的应用 但行业仍处于客户教育阶段 [3] - 2025年客户主动问询量显著增长 某公司一季度已完成去年80%收入任务 [3] - Gartner预测到2028年15%日常工作决策由AI Agent自主完成 33%企业软件将集成AI Agent [2] AI Agent安全风险 - MCP协议存在工具投毒攻击(TPA)风险 攻击者可利用代码注释嵌入恶意指令 操纵AI Agent执行未授权操作如读取敏感文件 [8] - MCP协议设计阶段未充分考虑安全机制 开源标准存在认证缺失、恶意调用等隐患 [9] - 大模型训练数据可能被污染 传输环节突破价值观对齐会导致模型输出被操控 [7] - 配置不当问题可能使正常大模型通过对话交互变成恶意模型 数据交互过程需敏感性识别 [9] 安全防御措施 - 安全厂商建议采用智能约束智能策略 如制定规则、鲁棒性检测等技术手段 [11] - 部署边界类智能网关设备(如WAF)监测流量 解决软件系统补丁滞后问题 [12] - 大模型厂商与安全公司需协同互补 厂商解决内生安全问题(模型、算法、语料) 安全公司负责外部防御 [12] - 运行安全是网络安全厂商主要服务阶段 涉及模型落地后的实际应用场景防护 [13] 硬件设备风险 - DeepSeek一体机存在安全风险 适合企业内部训练但不建议向公众开放服务 [10] - 一体机发展路径涉及单体→集群→智算中心 需平衡安全、性能、成本问题 [10]
瑞莱智慧CEO:大模型形成强生产力关键在把智能体组织起来,安全可控是核心前置门槛 | 中国AIGC产业峰会
量子位· 2025-05-06 17:08
核心观点 - 大模型在金融、医疗等关键领域的渗透使得安全可控性成为产业落地的先决条件[1] - AI在落地过程中面临大量安全问题,包括模型自身缺陷、滥用风险及伦理合规挑战[6][8] - 安全可控是垂类大模型形成强生产力的核心前置门槛[20][26] AI安全问题分类 - **模型自身缺陷**:包括大模型易受欺骗(如"奶奶漏洞"导致数据泄露)、价值观对齐偏差、模型幻觉等[8][12] - **滥用风险**:AIGC合成内容被用于造谣(如伪造地震视频)、诈骗(AI换脸骗取资金)等[8][9][15] - **伦理与社会影响**:错误答案出现在儿童产品中可能造成深远危害[8] 大模型安全解决方案 - **技术加固**:通过红队模型自动生成威胁性测试案例发现隐患[17],采用后训练框架提升模型安全能力(如安全增强版DeepSeek)[18][19] - **检测工具**:推出DeepReal平台检测AIGC合成内容(图片/视频/音频/文本),支持实时主动警示[19] - **系统级防护**:人脸AI防火墙RealGuard已服务超半数国内头部银行,防范注入攻击[16] 垂类大模型落地三阶段 - **初级问答工作流**:客服/信息咨询等低耦合场景[21] - **工作辅助流**:人机协同完成报告撰写等任务,人工二次校验保障安全[21] - **深度重构关键任务流**:人机深度协同重构行业工作流程,释放最大价值[21][25] 安全可控实施路径 - **模型层面**:训练推理阶段加固、有害内容风险提示[22] - **系统层面**:利用Agent技术调用可信工具提升可控性(如复杂算术题场景)[23] - **组织层面**:通过智能体协同与流程重构实现生产力跃升,类比人类社会发展[24][25] 行业实践数据 - 人脸AI防火墙RealGuard覆盖国内50%以上头部银行[16] - AIGC检测平台DeepReal支持多模态内容识别,实时防护AI诈骗[19] - 安全增强版DeepSeek在保持通用能力前提下安全性达国际闭源模型最优水平[19]
Yoshua Bengio参会!「大模型安全研讨会2025」开启,4月23日齐聚新加坡 | 报名开启
量子位· 2025-03-26 18:29
研讨会概述 - 第二届大模型安全研讨会将于2025年4月23日在新加坡JW万豪酒店举行 由新加坡管理大学孙军教授主办 聚焦大模型安全风险与机遇 涵盖技术原理 对抗攻击 数据隐私等核心议题 [1][2] - 研讨会包含九场专家演讲和一场圆桌讨论 邀请全球顶尖学者如Yoshua Bengio Christopher Manning Dawn Song等 探讨内容安全 数据安全 伦理治理等最新研究成果 [2][3][12][17][23] - 活动定位为亚太地区大模型安全峰会 旨在推动行业标准制定和技术发展参考 兼顾学术深度与产业前瞻性 [3][4] 核心议题 - 技术方向包括对抗性攻击防御 风险缓解策略 模型稳健性 隐私保护系统等 强调形式化验证与理论驱动方法 [2][14][20][21] - 伦理与治理框架是重点 涉及公平性 可控性 合规要求及全球安全生态构建 政府部门与产业专家将参与讨论 [2][23][24] 参会专家 - Yoshua Bengio:蒙特利尔大学教授 图灵奖得主 深度学习先驱 联合国AI顾问 [12] - Christopher Manning:斯坦福大学教授 冯诺依曼奖得主 自然语言处理权威 CS224N课程创始人 [17][18] - Dawn Song:伯克利教授 计算机安全教母 专注AI与区块链安全 获麦克阿瑟天才奖 [23][24] - Bo Li:伊利诺伊大学教授 研究可信机器学习 获IJCAI思想奖 TR35等荣誉 [14][15] - Maksym Andriushchenko:EPFL博士后 合作OpenAI Anthropic 研究模型预部署测试 [7] 组织架构 - 主席团由新加坡管理大学Jun Sun领衔 程序主席包括浙江大学Jingyi Wang 上海科技大学Yuqi Chen [31][32] - 本地协调团队涵盖新加坡管理大学 国立大学 南洋理工大学及AIDX TECH成员 [32] 活动信息 - 地点为新加坡JW万豪大宴会厅 注册需通过官网https://lmxsafety.com/ [30][5] - 投稿需发送至ai@qbitai.com 注明论文/项目链接及联系方式 [33]