大模型安全
搜索文档
GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍
机器之心· 2026-03-01 11:34
编辑|Panda Alex Radford, 出生于1993 年 4 月,即将 33 岁 ,但已经拥有超过 32 万的引用量。因为这位「独立研究员」不仅是 GPT、GPT-2 和 CLIP 的第一作者,同时还参与 了 GPT-3、GPT-4、PPO 算法等多个重大研究项目。 | Alec Radford | | FOLLOW | GET MY OWN PROFILE | | | | --- | --- | --- | --- | --- | --- | | Independent | | | | | | | No verified email | | | | | | | Deep Learning Machine Learning | | | Cited by | | VIEW ALL | | | | | All | | Since 2021 | | TITLE | CITED BY | YEAR | Citations 322847 | | 297276 | | | | | h-index 50 | | 50 | | | | | i10-index 61 | | 61 | | Language models ...
安恒信息:公司明鉴大模型风险评估系统重点聚焦大模型运行环境基础安全等三大核心领域
证券日报· 2026-02-27 21:12
公司产品动态 - 安恒信息在互动平台表示,其明鉴大模型风险评估系统聚焦于大模型运行环境基础安全、模型输出内容安全、训练语料安全三大核心领域 [2] - 该系统全面覆盖大模型的开发、训练、部署、应用全流程 [2] - 系统采用“探测-分析-加固-运营”一体化技术架构,旨在为用户提供全链路风险检测与闭环管理服务 [2]
天融信(002212.SZ):暂未向字节跳动Seedance 2.0提供安全防护
格隆汇· 2026-02-27 14:25
公司业务与客户关系 - 公司暂未向字节跳动旗下产品Seedance 2.0提供安全防护服务 [1] - 公司具备为各类客户提供人工智能大模型相关安全产品与解决方案的能力 [1] 产品与解决方案 - 公司可提供大模型安全网关、大模型数据安全监测、内容智能管控、大模型安全评估等一系列创新产品与解决方案 [1]
马年!天融信大模型安全网关焕新升级
金融界· 2026-02-26 09:27
行业趋势:AI大模型应用加速与安全挑战并存 - AI大模型在春节期间于国内民生服务领域掀起“红包大战”,通过多模态交互和复杂语义理解能力,实现了“对话即服务”的新模式,用户可通过文字或语音完成外卖、酒店推荐、行程规划、导航打车等需求,并自动完成支付,全程无需切换应用[1] - 随着数字中国建设推进,大模型在政务、金融、能源、医疗等关键领域加速落地,为合规保障、风险防控、智能服务、辅助决策等场景提供高效支撑[3] - 大模型在快速落地过程中面临新型安全挑战,包括数据投毒、模型窃取、隐私泄露等新型攻击手段频发,如何在创新与安全之间找到平衡成为核心议题[3] 公司产品:天融信大模型安全网关(TopLMG)全面升级 - 面对数据、模型、算法等层面的全新安全挑战,传统安全工具难以适配,天融信大模型安全网关(TopLMG)迎来全面技术升级,旨在构建全链路安全防护体系,形成“识别–保护–检测–响应–恢复”的智能防御闭环,护航大模型全生命周期安全[4] - 产品支持对多模态内容(文本、文档、图片、音频、视频的文字内容)进行精准识别与检测,并支持对图片进行NSFW检测,对音频进行高频段指令注入检测,以契合大模型在多种场景下的安全需求[6] - 产品支持对Base64/32/16、Ascii85、URL等多种编码进行解码与检测,可精准识别并阻断通过编码方式绕过安全策略的恶意行为,有效拦截利用编码混淆的攻击,避免数据泄露和攻击威胁[7][8] - 产品支持HTTP/2.0协议以提升传输效率并减少网络延迟,同时支持国密算法自适应以确保数据传输符合国内安全规范,有效抵御数据窃取风险[9] - 产品支持基于上下文语义进行攻击检测(而非单句匹配),以识别隐蔽攻击行为,并支持在检测到攻击时向大模型发起历史对话清洗指令,及时清除敏感或恶意信息[10] - 产品支持完整记录对话的输入和输出内容,实现全流程对话留存与回溯,助力知识沉淀、问题追溯和需求延续,提升沟通效率与信息管理便捷性[11] - 产品具备API资产智能风控功能,可自动梳理API资产并实现合规校验与访问控制,基于流量自动生成API资产库,支持合规校验、访问控制及限速,以防范接口滥用、恶意调用及海量调用导致的业务中断[12] - 产品具备合规审计与全链路追溯功能,提供数字水印、图片显示标识、元数据隐式标识三重防护手段以实现全链路溯源与真伪核验,遏制深度伪造风险,同时提供API调用监控及大模型生成代码的安全性检测与预警功能[13] 公司战略:技术创新与行业共治驱动发展 - 作为网络安全与智算云解决方案提供商,天融信坚持技术创新和行业共治并举,将AI技术充分融入全线产品以驱动技术迭代升级,同时联动产学研用各方力量共同完善相关标准体系,旨在让大模型落地更快、更稳,为千行百业数智化转型筑牢安全基石[13]
以AI对抗AI,让大模型健康发展
新浪财经· 2026-01-29 06:02
文章核心观点 - 大模型(生成式人工智能)在快速发展和应用的同时,其安全风险正从日常生活向商业和专业领域多点爆发,具体风险包括敏感信息泄露、提示注入、数据投毒等[1][3] - 面对新型且快速迭代的安全威胁,现有监管体系存在适配滞后、责任界定模糊等短板,构建包含技术对抗、流程管控、协同共治在内的全链条安全防护体系已刻不容缓[5][6][9] - 江苏省依托其AI产业基础,正通过专项政策激励、技术研发(如以AI对抗AI)、企业合规实践等多措并举,探索构建大模型安全应用的长效治理路径[7][9] 大模型安全风险的具体表现 - **风险类型多样化**:国际组织OWASP发布的大模型十大风险漏洞包括提示注入、敏感信息泄露、供应链安全、数据和模型投毒、不当输出处理等[2] - **渗透日常生活**:用户向大模型上传照片进行AI美化可能导致**敏感信息泄露**,模型能通过关联推理整合社交动态、出行轨迹等零散数据,推断未公开的家庭关系、职业背景,被用于精准诈骗[3] - **威胁商业运营**:**提示注入攻击**技术门槛低,可导致企业核心算法、客户数据泄露;**数据投毒**更具破坏性,仅**250份**恶意文档就能污染**百亿**参数模型,误导用户和企业决策[3] - **危害专业领域**:在商业场景中,模型可能产生“幻觉”,输出虚假资质或法律条款,引发经济纠纷;在研发领域,核心数据泄露或模型被干扰可能导致企业研发走偏,错失市场机遇,甚至引发知识产权纠纷[4] 当前安全治理面临的挑战 - **监管体系适配滞后**:现有规则侧重AI生成内容审核,对“数据和模型投毒”、“无界消耗”等新型攻击缺乏明确界定和处罚依据,难以追责[5] - **责任归属界定困难**:大模型的“黑箱特性”使得中间推理过程不透明,一旦出现风险,开发者、运营者、使用者责任模糊,用户投诉无门[5] 江苏省构建安全防护体系的举措 - **政策引导与激励**:对首次完成国家级算法备案的企业给予最高**5万元**一次性奖励,并搭建合规服务平台提供安全评估、漏洞检测等一站式服务[7] - **技术对抗防线**:企业开发异步识别引擎,用大模型语言实时监测异常提示词和数据投毒,并搭配边缘计算网关技术精准识别攻击[7] - **流程管控防线**:企业建立“AI+人工+运营商”三重审核机制,对通话数据加密存储,采用银行级双因素验证,可抵御**TB级每秒**的DDoS攻击[7] - **细节防护与演练**:在日志与页面设置明暗双重水印以追溯信息,关键隐私数据加密隐藏,并常态化开展站点级攻防演练以提升实战能力[8] - **合规备案实践**:围绕备案要求建立动态拦截词库,为生成内容加专属标识,并与计算中心合作实现客户数据物理隔离、日志回溯[8] 构建长效治理体系的建议与方向 - **技术层面:以AI对抗AI**:将防护融入研发全流程,在训练阶段建立数据安全准入机制,通过动态脱敏、智能识别净化数据,并探索搭建攻击识别与拦截系统[9] - **监管层面:分级分类治理**:对工业、交通等关键领域执行最严格安全标准,要求通过第三方安全认证,同时加快完善法律法规,明确大模型责任边界,建立开发者、运营者、使用者“三位一体”的可追溯责任机制[9] - **产业协同共治**:需构建政府统筹、企业担责、科研机构攻关、第三方机构评估的多方参与体系,形成治理合力[9]
天融信:目前腾讯元宝暂未应用到公司产品
证券日报网· 2026-01-28 22:11
公司与腾讯的合作关系 - 公司与腾讯在威胁情报、大模型安全、云安全、隐私计算、智慧城市等多个方向展开深度合作 [1] - 公司已与腾讯混元大模型开展合作 [1] - 目前腾讯元宝暂未应用到公司产品 [1]
第一梯队的大模型安全吗?复旦、上海创智学院等发布前沿大模型安全报告,覆盖六大领先模型
机器之心· 2026-01-22 12:05
报告概述 - 由复旦大学、上海创智学院、迪肯大学与伊利诺伊大学厄巴纳-香槟分校的研究团队联合发布,旨在系统性评估前沿大模型的安全性 [2] - 构建了一套覆盖语言、视觉语言与图像生成三大核心场景的统一安全评测框架,对六大前沿模型进行了全景式刻画 [2] - 评测融合了四大关键维度:基准评测、对抗评测、多语言评测和合规性评测,形成多层次、立体化的评估体系 [2][4] - 评测对象为通用能力处于第一梯队的前沿模型,包括GPT-5.2、Gemini 3 Pro、Qwen3-VL、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5,未覆盖Claude系列模型 [2][6] 语言模态安全 - **GPT-5.2** 平均安全率为78.39%,业界领先,其安全机制已进入以深层语义理解与价值对齐为核心的阶段,在复杂灰区场景中判断稳定,对抗输入下失效风险低 [11] - **Gemini 3 Pro** 平均安全率为67.9%,呈现“强但不均衡”特征:基准测试达88.06%,多语言安全率67.00%,合规性73.54%,但对抗鲁棒性下降至41.17%,在语义伪装与复杂操纵中泛化能力有待提升 [11] - **Qwen3-VL** 平均安全率为63.7%,与Gemini 3 Pro比肩,合规性表现突出,以77.11%的成绩位居第二,但对抗安全性(33.42%)与多语言安全(64.00%)明显回落 [12] - **Grok 4.1 Fast** 平均安全率为55.2%,表现不均衡:基线安全性(66.60%)和合规性评测(45.97%)垫底,但在对抗评测中以46.39%的安全率位列第二,显示出对特定攻击模式的拦截能力 [12] 多模态安全 - **GPT-5.2** 平均多模态安全率为94.69%,全面领先,对抗评测下达97.24%,基准场景中92.14%稳居首位,代表当前多模态安全对齐的最高成熟度 [13] - **Qwen3-VL** 平均安全率为81.11%,超越Gemini 3 Pro,基准成绩83.32%,对抗成绩78.89%,在视觉-语言交互场景中安全策略具备较好的结构完整性 [13] - **Gemini 3 Pro** 平均安全率为78.99%位列第三,呈现“可靠但保守”特征,面对多轮视觉诱导、隐性语义嵌套等复杂攻击时防御强度弱于前两名 [15] - **Grok 4.1 Fast** 平均安全率为68.16%,对抗成绩68.34%略高于基准成绩67.97%,其防护机制可能停留在浅层过滤与简单触发逻辑上 [15] 文生图安全 - **Nano Banana Pro** 平均安全率为59.86%,在基准评测(60.00%)、对抗评测(54.00%)与合规性评测(65.59%)三个维度均位居首位,安全机制具备风险语义重构与情境适配能力 [16] - **Seedream 4.5** 平均安全率为41.71%,展现了坚实的合规基础,基准安全47.94%,合规性57.53%,但对抗安全性仅19.67%,在面对语义伪装、隐性诱导等对抗型提示时鲁棒性不足 [16] 模型安全人格画像 - **GPT-5.2(全能内化型)**:安全雷达图谱近乎全向饱和,安全机制已从外置规则演进为内生推理能力,在灰区与复杂语境中能给出克制而精确的合规引导 [19] - **Qwen3-VL(准则合规型)**:在法律政策边界清晰、监管要求明确的场景中展现出极强的稳定性与可预期性,安全策略明显偏向规则驱动范式 [20] - **Gemini 3 Pro(伦理交互型)**:采用“先响应、后校准”的人本化安全交互范式,擅长处理偏见与歧视类风险,但安全策略偏向事后纠偏,面对对抗性重构时稳定性有提升空间 [21] - **Grok 4.1 Fast(自由效率型)**:呈现出轻量化与极速响应的产品哲学,原生防御机制相对克制,强调开放表达与低摩擦交互体验,体现效率与表达自由优先的取舍 [22][23] - **Nano Banana Pro(柔性重塑型)**:擅长通过内生语义净化策略对高风险提示进行隐性重构,平衡安全与创作自由,但对边界模糊风险的处理高度依赖隐式转换机制 [24] - **Seedream 4.5(坚实屏障型)**:坚持以强约束为核心的安全设计理念,在版权与暴力内容防御方面构建了稳定可靠的拦截闭环,但安全体系呈现“阻断优先”特征,缺乏对灰区场景的语义判别弹性 [25] 核心安全挑战 - **多轮自适应攻击的深层威胁**:攻击者通过持续观测模型响应并动态调整诱导策略,可形成具备“自我进化”能力的多步攻击链路,单一拦截层和静态规则体系难以形成有效防线 [27] - **跨语言安全的结构性不均衡**:多数模型在非英语语境(如泰语、阿拉伯语等)下的安全表现出现20%–40%的系统性下滑,暴露出安全对齐在语料分布与策略迁移上的显著不平衡 [28] - **决策透明度与可解释性的治理短板**:当前安全机制更多体现为“结果合规”,而非“过程可审计”,在高风险领域中决策可解释性与责任可追溯性存在结构性不足 [29] 行业观察与趋势 - 基于静态安全基准的评测会普遍高估安全性,在真实越狱攻击下没有模型具备可靠的防御能力,即使GPT-5.2在最坏情况下的安全率也仅约6%,其他模型接近于0% [14] - 大模型安全对齐必须转向从底层架构、训练范式到多模态交互机制的全栈式深度嵌入,学术界、产业界与治理机构需协同构建兼具包容性、标准化与动态演进能力的安全评估体系 [30]
亚信安全:大模型安全产品主要为大模型提供端到端安全防护
证券日报网· 2026-01-15 18:11
公司业务与产品布局 - 公司及子公司亚信科技在大模型领域提供大模型安全与管控及渊思大模型平台与工具集等产品 [1] - 大模型安全产品主要为大模型提供端到端安全防护 [1] - 子公司亚信科技在大模型应用与交付领域已实现多行业落地 [1] 目标市场与客户 - 公司大模型相关产品的目标客户为金融、运营商、政府、医疗、教育、能源等千行百业客户 [1]
云天励飞:公司与360集团签署战略合作协议
证券日报网· 2026-01-06 20:13
公司与360集团战略合作 - 公司与360集团签署战略合作协议,双方将围绕"纳米AI"算力底座建设、大模型安全能力提升以及智慧生活产品打造等方向合作 [1] - 双方将充分发挥各自在资源、场景与技术方面的优势,联合打造国产生态下的AI推理协同生态 [1] 合作核心与方向 - 未来合作将以"AI+安全"为核心,推进多维度合作落地 [1] - 一方面,结合公司DeepEdge与DeepXbot系列芯片能力与360智能硬件矩阵,打造更多安全可靠的创新产品 [1] - 另一方面,以公司DeepVerse赋能360AI平台服务能力,提升国产生态下的推理效率与部署灵活性 [1] 联合研发与探索 - 双方还将联合研发面向智能体(Agent)的AI安全防护能力 [1] - 双方将探索大模型安全与智慧生活深度融合的新产品、新场景与新模式 [1]
大模型易被恶意操控,安全治理迫在眉睫
中国经济网· 2025-12-23 10:26
大模型安全风险 - 大模型安全漏洞频现,技术发展需与安全同行[4] - 针对成熟模型,通过数千个账号灌输数百万次相同错误答案,后续提问可能得到错误结果[4] - 数据“投毒”和间接提示注入等攻击手段暴露模型易被恶意操控的风险[4] - 安全风险从输出错误答案延伸至窃取敏感数据及底层开源漏洞的连锁效应[4] 行业应对与挑战 - 大模型安全已非单纯技术问题,更是关乎公共安全的系统性挑战[4] - 产业界须将安全前置,在模型研发、数据训练及应用部署中筑牢防线[4] - 唯有技术与安全双轮驱动,方能避免人工智能发展“失速”[4]