Workflow
大模型安全
icon
搜索文档
以AI对抗AI,让大模型健康发展
新浪财经· 2026-01-29 06:02
文章核心观点 - 大模型(生成式人工智能)在快速发展和应用的同时,其安全风险正从日常生活向商业和专业领域多点爆发,具体风险包括敏感信息泄露、提示注入、数据投毒等[1][3] - 面对新型且快速迭代的安全威胁,现有监管体系存在适配滞后、责任界定模糊等短板,构建包含技术对抗、流程管控、协同共治在内的全链条安全防护体系已刻不容缓[5][6][9] - 江苏省依托其AI产业基础,正通过专项政策激励、技术研发(如以AI对抗AI)、企业合规实践等多措并举,探索构建大模型安全应用的长效治理路径[7][9] 大模型安全风险的具体表现 - **风险类型多样化**:国际组织OWASP发布的大模型十大风险漏洞包括提示注入、敏感信息泄露、供应链安全、数据和模型投毒、不当输出处理等[2] - **渗透日常生活**:用户向大模型上传照片进行AI美化可能导致**敏感信息泄露**,模型能通过关联推理整合社交动态、出行轨迹等零散数据,推断未公开的家庭关系、职业背景,被用于精准诈骗[3] - **威胁商业运营**:**提示注入攻击**技术门槛低,可导致企业核心算法、客户数据泄露;**数据投毒**更具破坏性,仅**250份**恶意文档就能污染**百亿**参数模型,误导用户和企业决策[3] - **危害专业领域**:在商业场景中,模型可能产生“幻觉”,输出虚假资质或法律条款,引发经济纠纷;在研发领域,核心数据泄露或模型被干扰可能导致企业研发走偏,错失市场机遇,甚至引发知识产权纠纷[4] 当前安全治理面临的挑战 - **监管体系适配滞后**:现有规则侧重AI生成内容审核,对“数据和模型投毒”、“无界消耗”等新型攻击缺乏明确界定和处罚依据,难以追责[5] - **责任归属界定困难**:大模型的“黑箱特性”使得中间推理过程不透明,一旦出现风险,开发者、运营者、使用者责任模糊,用户投诉无门[5] 江苏省构建安全防护体系的举措 - **政策引导与激励**:对首次完成国家级算法备案的企业给予最高**5万元**一次性奖励,并搭建合规服务平台提供安全评估、漏洞检测等一站式服务[7] - **技术对抗防线**:企业开发异步识别引擎,用大模型语言实时监测异常提示词和数据投毒,并搭配边缘计算网关技术精准识别攻击[7] - **流程管控防线**:企业建立“AI+人工+运营商”三重审核机制,对通话数据加密存储,采用银行级双因素验证,可抵御**TB级每秒**的DDoS攻击[7] - **细节防护与演练**:在日志与页面设置明暗双重水印以追溯信息,关键隐私数据加密隐藏,并常态化开展站点级攻防演练以提升实战能力[8] - **合规备案实践**:围绕备案要求建立动态拦截词库,为生成内容加专属标识,并与计算中心合作实现客户数据物理隔离、日志回溯[8] 构建长效治理体系的建议与方向 - **技术层面:以AI对抗AI**:将防护融入研发全流程,在训练阶段建立数据安全准入机制,通过动态脱敏、智能识别净化数据,并探索搭建攻击识别与拦截系统[9] - **监管层面:分级分类治理**:对工业、交通等关键领域执行最严格安全标准,要求通过第三方安全认证,同时加快完善法律法规,明确大模型责任边界,建立开发者、运营者、使用者“三位一体”的可追溯责任机制[9] - **产业协同共治**:需构建政府统筹、企业担责、科研机构攻关、第三方机构评估的多方参与体系,形成治理合力[9]
天融信:目前腾讯元宝暂未应用到公司产品
证券日报网· 2026-01-28 22:11
公司与腾讯的合作关系 - 公司与腾讯在威胁情报、大模型安全、云安全、隐私计算、智慧城市等多个方向展开深度合作 [1] - 公司已与腾讯混元大模型开展合作 [1] - 目前腾讯元宝暂未应用到公司产品 [1]
第一梯队的大模型安全吗?复旦、上海创智学院等发布前沿大模型安全报告,覆盖六大领先模型
机器之心· 2026-01-22 12:05
报告概述 - 由复旦大学、上海创智学院、迪肯大学与伊利诺伊大学厄巴纳-香槟分校的研究团队联合发布,旨在系统性评估前沿大模型的安全性 [2] - 构建了一套覆盖语言、视觉语言与图像生成三大核心场景的统一安全评测框架,对六大前沿模型进行了全景式刻画 [2] - 评测融合了四大关键维度:基准评测、对抗评测、多语言评测和合规性评测,形成多层次、立体化的评估体系 [2][4] - 评测对象为通用能力处于第一梯队的前沿模型,包括GPT-5.2、Gemini 3 Pro、Qwen3-VL、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5,未覆盖Claude系列模型 [2][6] 语言模态安全 - **GPT-5.2** 平均安全率为78.39%,业界领先,其安全机制已进入以深层语义理解与价值对齐为核心的阶段,在复杂灰区场景中判断稳定,对抗输入下失效风险低 [11] - **Gemini 3 Pro** 平均安全率为67.9%,呈现“强但不均衡”特征:基准测试达88.06%,多语言安全率67.00%,合规性73.54%,但对抗鲁棒性下降至41.17%,在语义伪装与复杂操纵中泛化能力有待提升 [11] - **Qwen3-VL** 平均安全率为63.7%,与Gemini 3 Pro比肩,合规性表现突出,以77.11%的成绩位居第二,但对抗安全性(33.42%)与多语言安全(64.00%)明显回落 [12] - **Grok 4.1 Fast** 平均安全率为55.2%,表现不均衡:基线安全性(66.60%)和合规性评测(45.97%)垫底,但在对抗评测中以46.39%的安全率位列第二,显示出对特定攻击模式的拦截能力 [12] 多模态安全 - **GPT-5.2** 平均多模态安全率为94.69%,全面领先,对抗评测下达97.24%,基准场景中92.14%稳居首位,代表当前多模态安全对齐的最高成熟度 [13] - **Qwen3-VL** 平均安全率为81.11%,超越Gemini 3 Pro,基准成绩83.32%,对抗成绩78.89%,在视觉-语言交互场景中安全策略具备较好的结构完整性 [13] - **Gemini 3 Pro** 平均安全率为78.99%位列第三,呈现“可靠但保守”特征,面对多轮视觉诱导、隐性语义嵌套等复杂攻击时防御强度弱于前两名 [15] - **Grok 4.1 Fast** 平均安全率为68.16%,对抗成绩68.34%略高于基准成绩67.97%,其防护机制可能停留在浅层过滤与简单触发逻辑上 [15] 文生图安全 - **Nano Banana Pro** 平均安全率为59.86%,在基准评测(60.00%)、对抗评测(54.00%)与合规性评测(65.59%)三个维度均位居首位,安全机制具备风险语义重构与情境适配能力 [16] - **Seedream 4.5** 平均安全率为41.71%,展现了坚实的合规基础,基准安全47.94%,合规性57.53%,但对抗安全性仅19.67%,在面对语义伪装、隐性诱导等对抗型提示时鲁棒性不足 [16] 模型安全人格画像 - **GPT-5.2(全能内化型)**:安全雷达图谱近乎全向饱和,安全机制已从外置规则演进为内生推理能力,在灰区与复杂语境中能给出克制而精确的合规引导 [19] - **Qwen3-VL(准则合规型)**:在法律政策边界清晰、监管要求明确的场景中展现出极强的稳定性与可预期性,安全策略明显偏向规则驱动范式 [20] - **Gemini 3 Pro(伦理交互型)**:采用“先响应、后校准”的人本化安全交互范式,擅长处理偏见与歧视类风险,但安全策略偏向事后纠偏,面对对抗性重构时稳定性有提升空间 [21] - **Grok 4.1 Fast(自由效率型)**:呈现出轻量化与极速响应的产品哲学,原生防御机制相对克制,强调开放表达与低摩擦交互体验,体现效率与表达自由优先的取舍 [22][23] - **Nano Banana Pro(柔性重塑型)**:擅长通过内生语义净化策略对高风险提示进行隐性重构,平衡安全与创作自由,但对边界模糊风险的处理高度依赖隐式转换机制 [24] - **Seedream 4.5(坚实屏障型)**:坚持以强约束为核心的安全设计理念,在版权与暴力内容防御方面构建了稳定可靠的拦截闭环,但安全体系呈现“阻断优先”特征,缺乏对灰区场景的语义判别弹性 [25] 核心安全挑战 - **多轮自适应攻击的深层威胁**:攻击者通过持续观测模型响应并动态调整诱导策略,可形成具备“自我进化”能力的多步攻击链路,单一拦截层和静态规则体系难以形成有效防线 [27] - **跨语言安全的结构性不均衡**:多数模型在非英语语境(如泰语、阿拉伯语等)下的安全表现出现20%–40%的系统性下滑,暴露出安全对齐在语料分布与策略迁移上的显著不平衡 [28] - **决策透明度与可解释性的治理短板**:当前安全机制更多体现为“结果合规”,而非“过程可审计”,在高风险领域中决策可解释性与责任可追溯性存在结构性不足 [29] 行业观察与趋势 - 基于静态安全基准的评测会普遍高估安全性,在真实越狱攻击下没有模型具备可靠的防御能力,即使GPT-5.2在最坏情况下的安全率也仅约6%,其他模型接近于0% [14] - 大模型安全对齐必须转向从底层架构、训练范式到多模态交互机制的全栈式深度嵌入,学术界、产业界与治理机构需协同构建兼具包容性、标准化与动态演进能力的安全评估体系 [30]
亚信安全:大模型安全产品主要为大模型提供端到端安全防护
证券日报网· 2026-01-15 18:11
公司业务与产品布局 - 公司及子公司亚信科技在大模型领域提供大模型安全与管控及渊思大模型平台与工具集等产品 [1] - 大模型安全产品主要为大模型提供端到端安全防护 [1] - 子公司亚信科技在大模型应用与交付领域已实现多行业落地 [1] 目标市场与客户 - 公司大模型相关产品的目标客户为金融、运营商、政府、医疗、教育、能源等千行百业客户 [1]
云天励飞:公司与360集团签署战略合作协议
证券日报网· 2026-01-06 20:13
公司与360集团战略合作 - 公司与360集团签署战略合作协议,双方将围绕"纳米AI"算力底座建设、大模型安全能力提升以及智慧生活产品打造等方向合作 [1] - 双方将充分发挥各自在资源、场景与技术方面的优势,联合打造国产生态下的AI推理协同生态 [1] 合作核心与方向 - 未来合作将以"AI+安全"为核心,推进多维度合作落地 [1] - 一方面,结合公司DeepEdge与DeepXbot系列芯片能力与360智能硬件矩阵,打造更多安全可靠的创新产品 [1] - 另一方面,以公司DeepVerse赋能360AI平台服务能力,提升国产生态下的推理效率与部署灵活性 [1] 联合研发与探索 - 双方还将联合研发面向智能体(Agent)的AI安全防护能力 [1] - 双方将探索大模型安全与智慧生活深度融合的新产品、新场景与新模式 [1]
大模型易被恶意操控,安全治理迫在眉睫
中国经济网· 2025-12-23 10:26
大模型安全风险 - 大模型安全漏洞频现,技术发展需与安全同行[4] - 针对成熟模型,通过数千个账号灌输数百万次相同错误答案,后续提问可能得到错误结果[4] - 数据“投毒”和间接提示注入等攻击手段暴露模型易被恶意操控的风险[4] - 安全风险从输出错误答案延伸至窃取敏感数据及底层开源漏洞的连锁效应[4] 行业应对与挑战 - 大模型安全已非单纯技术问题,更是关乎公共安全的系统性挑战[4] - 产业界须将安全前置,在模型研发、数据训练及应用部署中筑牢防线[4] - 唯有技术与安全双轮驱动,方能避免人工智能发展“失速”[4]
喜报丨信安世纪荣膺ISC.AI 2025创新百强称号
新浪财经· 2025-12-17 22:19
行业活动与评选 - ISC AI 2025第六届创新百强颁奖典礼于12月17日成功举办[1][4] - 评选自11月启动,汇聚全国超500家企业与100所高校参与[1][4] - 累计征集创新产品与解决方案超800项[1][4] - 评选覆盖安全大模型、安全智能体、大模型安全等前沿领域[1][4] 公司荣誉 - 北京信安世纪科技股份有限公司(股票代码:688201)荣获“ISC AI 2025第六届创新百强”称号[1][4] - 公司凭借在身份安全领域的卓越表现获此奖项[1][4]
50位专家齐聚冰城 共探AI时代安全防护新路径
中国新闻网· 2025-11-30 14:23
会议概况 - 2025年《信息网络安全》东北地区学术研讨会在哈尔滨召开,来自全国20余所高校及科研院所的50名网络安全领域专家参会 [1] 核心议题与前沿技术探讨 - 会议重点探讨工业互联网安全、人工智能数据安全及隐私保护、大模型安全、深度伪造等前沿技术 [1] - 专家指出在人工智能广泛应用背景下,工业互联网安全、人因风险、AI数据隐私与芯片漏洞等问题日益凸显 [2] - 分论坛议题涵盖图像来源真实性验证技术、深度伪造治理、视觉内容生成安全与篡改检测、联邦学习关键技术等前沿方向 [5] 关键技术进展与应用 - 东北大学姚羽教授分享“谛听”工业互联网安全能力体系及其在实际场景中的应用成果,探讨人工智能在工业安全中的潜力 [2] - 哈尔滨工程大学吕宏武教授梳理AI驱动流量分类方法进展,结合大模型与联邦学习展望未来,并指出流量不均衡、长序列依赖和高标注成本等挑战 [2] 行业共识与发展建议 - 圆桌讨论提出构建安全可控的大模型体系、完善模型安全标准、推进产学研协同创新等重要建议 [2] - 会议系统呈现了在数字内容安全、AI信任体系与隐私计算方面的最新思考与实践 [5]
大模型“带病运行”,漏洞占比超六成
36氪· 2025-11-17 18:34
大模型内生安全风险现状 - 2025年3月,开源大模型工具Ollama被通报存在严重漏洞,可能导致数据泄露、算力盗取和服务中断等安全风险 [1] - 2025年6月,英国高等法院发现数十份法律文书中含有ChatGPT生成的虚构判例,暴露出输出可信度问题 [1] - 2025年国内首次AI大模型实网众测发现281个安全漏洞,其中大模型特有漏洞占比超过60% [1] - 大模型的数据安全、算法鲁棒性、输出可信度等内生风险已从理论隐患变为现实威胁,关乎公共利益与社会秩序 [1] 主要风险类型与事件 - 数据泄露、输出误导、内容违规是当前最频发的安全风险类型 [3] - 金融、医疗领域出现三起“Prompt误喂”事件,员工将含客户身份证、病史的完整字段直接输入对话框,导致敏感信息被模型吐出并被合作方爬虫截获 [3] - 数据泄露被描述为高频“灰犀牛”事件,根本原因在于缺乏“敏感实体识别+对话级脱敏”的实时防护闸口 [3] 行业风险评估与趋势 - 安远AI发布的前沿AI风险监测报告显示,过去一年发布的模型风险指数持续创新高 [3] - 网络攻击领域的累积最大风险指数比一年前增长31%,生物风险领域增长38%,化学风险领域增长17%,失控领域增长50% [3] - 行业存在“重能力迭代、轻安全建设”的倾向,推理模型在能力分上显著高于非推理模型,但安全分分布范围高度重叠,风险敞口随能力提升而扩大 [5] - 采用模型诚实性评估基准MASK进行监测的结果显示,只有4个模型得分超过80分,同时有30%的模型得分不到50分 [5] 安全治理挑战与应对 - 大模型风险评估多由厂商自行开展,但不少厂商未发布评估报告,且评估标准不统一,透明度低 [7] - 技术迭代快于治理节奏的矛盾持续加剧,攻击者利用大模型生成新型攻击手段的周期越来越短,而行业制定防护方案和标准规范需要数月甚至更久 [11] - 安全治理存在“三不管”地带,数据归属、模型责任、应用边界没有统一切口,导致“监管等标准、标准等实践、实践等监管”的死循环 [12] 新型风险与未来趋势 - AI智能体和多模态模型的发展将带来新的安全风险形态,其更强的能力可能被恶意用户利用来实施危害性更大的行动 [11] - 多模态模型存在“多模态越狱”风险,例如图片中隐藏人类不可见文字指令以诱导模型执行有害任务 [11] - 未来12~24个月,最值得警惕的风险是“模型供应链投毒”与“自主智能体滥用”,前者可能污染预训练数据、插件或工具链,后者可能将“写邮件”动作放大成“自动转账” [11] 风险监测平台与方法 - 安远AI发布的前沿AI风险监测平台专注于评估与监测前沿AI模型灾难性风险,对全球15家领先模型公司的前沿大模型的滥用和失控风险进行针对性评估和定期监测 [2] - 平台评估方法分为五个步骤:定义风险领域、选择测评基准、选择前沿模型、运行基准测试、计算指标 [8] - 评估聚焦于网络攻击、生物风险、化学风险和失控四个最受关注的灾难性风险领域,从“能力”和“安全”两个维度进行测评 [8]
360重磅发布《大模型安全白皮书》 推动AI应用“安全、向善、可信、可控”
证券日报· 2025-11-09 19:07
白皮书核心内容 - 系统性归纳威胁大模型安全的五大关键风险:基础设施安全风险、内容安全风险、数据与知识库安全风险、智能体安全风险、用户端安全风险 [1] - 提出"外挂式安全+平台原生安全"双轨治理策略,形成全链路防护网 [1] - 核心理念为"外筑'以模治模'动态屏障,内固'平台原生'安全底座",旨在推动人工智能行业向安全、向善、可信、可控方向发展 [3] 大模型安全风险分类 - 基础设施安全风险包括设备控制、供应链漏洞、拒绝服务攻击及算力资源滥用 [1] - 内容安全风险涉及不符合核心价值观、虚假或违规内容、大模型幻觉及提示注入攻击 [1] - 数据与知识库安全风险表现为数据泄露、越权访问、隐私滥用和知识产权问题 [1] - 智能体安全风险源于其自主性增强,导致插件调用、算力调度等环节安全边界模糊 [1] - 用户端安全风险涵盖权限控制、API调用监控、恶意脚本执行及MCP执行安全 [1] 公司安全战略与产品 - 公司产品基于"平台原生安全"理念开发,将安全深度植入平台底层,满足国家与行业合规要求 [2] - 企业级知识库守护数据与知识安全,智能体构建和运营平台确保行为可控,智能体客户端筑牢用户端安全防线 [2] - 公司已将安全能力落地政务、金融、制造等行业,使大模型安全成为可落地的实战方案 [2] 行业影响与未来展望 - 白皮书在世界互联网大会乌镇峰会发布,为大模型应用拉起全链路安全防线 [3] - 未来将联合产学研各界,共同推动安全标准建设与技术共享,共建安全可信的AI生态 [2]