人工智能安全
搜索文档
AI出海如何合规?港中文(深圳)吴保元:设个性化安全护栏
南方都市报· 2026-01-07 19:37
粤港澳大湾区AI安全发展联合实验室活动与AI出海研讨会 - 粤港澳大湾区生成式人工智能安全发展联合实验室福田服务站正式启用,并举办了以“把握APEC机遇 扬帆新蓝海”为主题的AI出海研讨会 [2] - 活动汇聚了来自政府、企业、高校、科研机构及应用端的代表,共同探讨粤港澳大湾区人工智能产业出海的新机遇与新未来 [2] - 香港中文大学(深圳)人工智能学院终身副教授、助理院长吴保元围绕“人工智能出海中的安全挑战与对策”进行了主题分享 [2][5] AI安全的三重维度与核心风险 - AI安全可划分为三个层次:AI助力安全、AI内生安全以及AI衍生安全 [2] - AI在身份安全、信息安全、网络安全等传统安全领域具备显著应用价值,例如检测电信诈骗风险、防范恶意软件入侵 [3] - AI面临隐私性、精确性、鲁棒性的安全“不可能三角”困境,功能强大且精准的模型易出现隐私泄露和鲁棒性不足问题 [3] - 大语言模型如ChatGPT会“记忆”海量训练数据,视觉生成模型能轻易生成如现实人物肖像等原始训练数据,构成明显的隐私泄露隐患和AI内生安全风险 [3] - AI衍生安全风险包括:军事领域的武器化应用、虚假信息生成与扩散、对职场岗位的替代效应、加剧“信息茧房”及放大歧视偏见,可能对社会秩序和公共利益产生负面影响 [3] - 应对安全风险需对AI模型开展价值对齐训练,确保其行为逻辑与人类的意图和价值观保持一致,符合人类社会的法律法规、意识形态、宗教信仰及风俗习惯 [3] AI产品跨境面临的三重合规挑战 - AI安全问题在跨境场景下会被放大,给AI产品出海带来额外的合规与运营挑战 [5] - **数据跨境监管挑战**:AI模型及其相关数据(训练数据、模型参数、推理输入输出数据)明确纳入数据跨境监管范畴 [5] - 在境内收集用户个人信息、行业敏感数据等并传输至境外用于AI模型训练,将受《个人信息保护法》《数据安全法》《促进和规范数据跨境流动规定》等法律法规严格约束 [5] - 部分功能强大或具备特殊属性的AI模型,可能受到技术出口管制相关政策的限制 [5] - 若AI模型训练使用了境外数据,其跨境应用也需符合目标国家和地区的相关数据出境规定 [5] - **内容合规性挑战**:AI生成内容的合规性判定与各地的法律法规、历史文化、宗教习俗、地域特点及时事热点高度相关 [5] - 出海企业必须精准把握目的地的合规要求,针对性设置个性化的AI安全护栏,确保产品输出内容符合当地监管与公序良俗 [5] - **责任追溯挑战**:在法律管辖层面,AI服务的提供者、用户、数据存储地及损害发生地往往分属不同国家和地区,导致管辖权界定困难 [6] - 各国产品责任法及赔偿标准差异显著,易引发法律适用冲突 [6] - 在技术溯源层面,AI服务的分布式跨境架构与“算法黑箱”特性,使得安全事故的原因调查与证据固定难度极大 [6] - 跨国调取日志数据、获取有效电子证据等环节面临重重障碍 [6] - 在监管标准层面,各国AI监管框架存在明显差异,缺乏统一的安全认证互认机制,导致企业出海合规成本高昂且不确定性极强 [6] 对出海企业的建议 - 出海企业需提前预判、充分考量各类AI安全与合规风险,构建全流程的风险防控体系,为AI产品跨境布局筑牢安全根基 [6]
前瞻人工智能安全评估体系与基座平台入列北京人工智能前沿成果
新京报· 2026-01-05 12:37
北京人工智能安全治理前沿成果发布 - 2026年1月5日,北京举办人工智能创新高地建设推进会,会上发布了包括“前瞻人工智能安全评估体系与基座平台”在内的8大前沿成果 [1] 前瞻人工智能安全评估体系与基座平台 - 该平台由北京前瞻人工智能安全与治理研究院发布,旨在以安全为基石引领人工智能稳健发展 [1] - 体系打破传统单一维度局限,构建了全领域、多层次的评估框架 [1] - 覆盖范围根植基础安全,并延伸至具身智能安全、科学智能安全、社会安全、环境安全、灾难性与生存性风险五大维度 [1] - 评估覆盖教育科研、医疗健康、金融经济、信息传媒、工业基建、政务民生等多个关键领域 [1] - 评估重点聚焦隐私与数据保护、滥用恶用、身心伤害、虚假信息防范、自主人工智能高阶风险等核心痛点 [1] 人工智能模型安全现状与防御方案 - 测试发现近年大模型安全性未明显提升,部分新近模型的攻击成功率甚至更高 [2] - 验证结论表明,模型防御不一定需要重新训练,在在线推理阶段部署安全护栏即可显著提升安全水平 [2] - 针对各类风险,研究院打造了“前瞻灵御”AI安全攻防平台,为企业提供标准化评估流程、全面安全分析及针对性防御方案 [2] 前瞻灵度AI伦理评估平台 - 该平台专注于AI伦理的智能评估与价值校准 [2] - 能够对上百个大模型进行实时动态监控与并行测试 [2] - 评估维度涵盖六大维度、90个细分类别的伦理合乎度 [2] - 平台集成了以中国价值观为核心的大规模中文价值语料库,覆盖3个层面、12个核心价值、50个衍生价值,累计超过25万条规则 [2] - 收录了全球200余项伦理原则与规范,以及40余项中英文法律法规与国际公约,提供精准合规指引 [2] - 可对人工智能、数据安全、神经科学、脑机接口、医疗健康、生物安全、危险化学物质、核物质、自动驾驶等领域进行自动化伦理评估辅助 [2] 人工智能安全治理的核心定位 - 研究院认为人工智能安全应成为“第一性原理”,是不可删除、无法违背的底线要求 [3] - 安全治理能力基座的构建是北京引领人工智能稳健发展的基础,旨在安全地将AI应用于现代化建设并与世界共享发展成果 [3]
影响市场重大事件:社保基金会表态,充分发挥长期资金、耐心资本作用,更好支持科技创新;中国信通院建设的人工智能产品安全漏洞专业库(CAIVD)正式上线运行
每日经济新闻· 2025-12-17 06:37
社保基金投资方向 - 社保基金会强调要科学有效开展资产配置,稳健做好各大类资产投资,并充分发挥长期资金、耐心资本作用,在守住安全底线的基础上,积极服务国家发展需要,更好支持科技创新和产业创新深度融合 [1] - 会议提出要围绕“十五五”规划建议和中央经济工作会议部署,系统谋划社保基金事业“十五五”规划,推动社保基金事业高质量发展 [1] 人工智能产业监管 - 中国信通院建设的人工智能产品安全漏洞专业库(CAIVD)正式上线运行,将开展人工智能产品安全漏洞收集和验证,督促厂商及时修补漏洞,支撑漏洞规范管理 [2] 内容平台治理 - 抖音发布《抖音社区财经行业公约(试行)》,明确禁止未经财经专业资质认证的账号发布财经专业内容或推荐相关服务,以规范财经内容传播 [3] 新能源与新型电力系统建设 - 广州市发布规划纲要,提出加快构建新型电力系统,统筹提升电力系统灵活调节能力,加强用电需求侧管理,逐步吸纳电动汽车充换电设施、新型储能、虚拟电厂等灵活调节资源 [4] - 规划鼓励和规范各类新型储能项目示范应用和规模化推广,并推进国家新型储能创新中心建设 [4] - 中国能建投资建设的全球最大规模绿色氢氨醇一体化项目一期工程正式投产,项目总投资69.46亿元,建设内容包括80万千瓦新能源发电(风电75万千瓦、光伏5万千瓦)[10] - 该项目投产后可实现年产4.5万吨绿氢、20万吨绿氨和绿色甲醇,相当于每年节约标准煤约60万吨,减少二氧化碳排放74万吨 [10] 消费电子与半导体行业 - Counterpoint Research报告预测,受内存短缺推高成本、压缩产能影响,明年全球智能手机出货量或将下滑2.1%,与今年预估3.3%的增幅形成对比 [5] - 报告指出,受电子元器件整体成本上涨10%至25%的影响,明年全球智能手机平均售价将上涨6.9% [5] - 昆仑芯即将完成股改,加速推进冲刺上市,此前已决定转向港股,大股东百度正就拟议分拆及上市进行评估 [7] - 昆仑芯目前主力产品为P800,若2025年30-40亿元的收入数据准确,按6万元均价预估,对应出货量为5-6.7万颗 [8] 汽车产业政策动向 - 据报道,欧盟将放弃2035年内燃机禁令,拟放宽新车排放标准,允许部分插电式混合动力车和配备燃油增程器的电动汽车上市 [6] - 新提案要求到下个十年中期尾气排放量较当前目标减少90%,而非原定的100%减排 [6] 市场监管与营商环境 - 上海市市场监管局召开外商投资企业圆桌会,强调要更大力度提升外商投资企业登记注册便利程度,依法优化简化办理流程、缩短办理时间 [9] - 市场监管总局近期将发布一系列新规,包括《直播电商监督管理办法》、《网络交易平台规则监督管理办法》以规范平台经济 [10] - 涉及食品安全的两项制度《食品委托生产监督管理办法》、《食品销售连锁企业落实食品安全主体责任监督管理规定》也即将发布 [10] - 市场监管总局还将公布新修改的《禁止垄断协议规定》,出台《制止滥用行政权力排除、限制竞争行为规定》,以加强反垄断反不正当竞争工作 [10]
NeurIPS 2025|指哪打哪,可控对抗样本生成器来了!
机器之心· 2025-12-15 16:10
论文核心观点 - 清华大学与蚂蚁数科联合提出名为Dual-Flow的新型对抗攻击生成框架,该框架能从海量图像数据中学习“通用扰动规律”,不依赖目标模型结构且无需梯度,即可对多种模型和类别发起高效的黑盒攻击 [2] - 该框架通过“前向扰动建模—条件反向优化”的双流结构,实现对抗样本的高可迁移性与高成功率,同时保持极低的视觉差异,可视为一个“可控的对抗样本生成器” [2] - 该技术旨在解决传统对抗攻击方法在迁移性、多目标攻击能力及实例无关性方面的局限,为AI安全领域带来了新的挑战与研究方向 [5][6][7][8] 技术背景与问题定义 - 随着AI模型在图像识别、自动驾驶等领域的广泛部署,模型安全成为重要问题,尤其是在攻击者无法获知模型内部结构的黑盒环境下,攻击的迁移性至关重要 [5] - 传统对抗攻击方法存在两大局限:一是实例专属攻击,虽针对单张图片成功率较高,但迁移性差;二是通用生成器攻击,在面对多目标、多模型时迁移性有限且成功率下降 [6][7] 核心技术创新 - **前向+反向Flow结构**:Dual-Flow不在像素级别直接添加噪声,而是先将图片映射到流/潜在空间进行结构化扰动,再通过速度函数反向映射回图像空间生成对抗样本,这种方法能生成更自然、隐蔽且结构化的扰动 [9][13] - **多目标、实例无关攻击能力**:该框架的统一结构天然支持多目标、多模型、实例无关的攻击,一个生成器即可覆盖多个类别和模型,无需为每个攻击目标单独训练,显著降低了成本并提高了实用性 [10][14] - **级联分布偏移训练**:在训练过程中,扰动分布逐步推进,使得生成的对抗样本在不同时间步和中间表示上都能保持有效,从而大幅提升对多模型、多目标的迁移成功率,并在约束下保证视觉隐蔽性 [11][14] 实验结果与性能 - 在ImageNet NeurIPS验证集上的实验表明,Dual-Flow在单目标和多目标攻击中都展现了强大的迁移能力 [17] - 具体数据表明,在从Inception-v3迁移攻击ResNet-152的实验中,Dual-Flow的攻击成功率提升高达34.58% [23] - 在单目标攻击的黑盒环境下,Dual-Flow的平均成功率明显高于传统方法;即使面对经过对抗训练的模型,Dual-Flow依然能保持较高的成功率,体现了其在黑盒环境下的通用性和强大攻击力 [18][19] - 通过加入约束限制像素级扰动,并利用速度正则化使扰动在时间维度上更加平滑,生成的对抗视频几乎与原始视频无视觉差别,但仍能稳定误导模型 [20] 应用与贡献总结 - Dual-Flow提出了一种全新的通用对抗样本生成范式,通过其独特的双流协同结构及级联式分布偏移训练,实现了在多目标、多模型场景下稳定有效的实例无关攻击 [22] - 相比传统依赖像素级噪声的方法,Dual-Flow生成的扰动更具结构性且更难察觉,同时一个生成器即可覆盖多个类别与模型,大幅降低了使用成本 [22] - 该技术已应用于蚂蚁数科的身份安全相关产品,用于对抗样本的生成和检测,以增强防御体系对对抗样本的鲁棒性 [24]
Anthropic嘲讽奥特曼:我们从不玩 “红色警报”,CEO放话:Claude更赚钱,流量仅GPT 1%敢冲3500亿IPO?
36氪· 2025-12-04 17:05
公司上市与估值动态 - Anthropic正为IPO做准备,已委托硅谷律师事务所Wilson Sonsini协助推进,最快可能于明年年初进行[1] - 潜在IPO前,公司正推进一轮私募融资,目标估值达3500亿美元,并与多家大型投行展开早期磋商[1] - 若成功上市,其估值可能超过3000亿美元,有望成为史上规模最大的IPO之一[1] - 作为对比,谷歌上市时估值约230亿美元,Meta上市时估值约1000亿美元,微软1986年上市时估值仅约8亿美元[3] - 公司预计到2028年销售额可能达到700亿美元,其拟议的3500亿美元估值相当于该销售额的5倍[4] - 主要竞争对手OpenAI也在筹备IPO,潜在估值或达1万亿美元,最早可能于2026年末提交上市申请,其最新估值为5000亿美元[13] 财务与业务表现 - 公司核心产品是聊天机器人Claude,该产品已实现营收[3] - 过去三年,公司每年的营收都实现10倍增长:2023年从0增长到1亿美元,2024年从1亿美元增至10亿美元[4] - 预计到今年年底,公司年化营收将从10亿美元增长至80亿至100亿美元之间[4] - 公司预计明年年化营收将增长逾一倍,达到约260亿美元,服务的企业客户数量将超30万家[3] - 公司订阅收入今年激增近7倍(尽管基数较低),而OpenAI的订阅收入增长率仅为18%[16] - 上月,微软与英伟达宣布计划向Anthropic投资至多150亿美元,而Anthropic则承诺将投入300亿美元使用微软的云基础设施[3] 市场定位与竞争策略 - 公司由一群离职的OpenAI高管于2021年创立,专注于AI工具的商业应用场景,而非广泛的消费市场[14] - 公司产品更侧重于企业客户而非消费者,其模型正越来越多地针对企业需求进行优化[7][8] - 在“企业级”市场的份额达32%,似乎更受企业客户青睐[14] - 公司感受到的竞争压力相对较小,部分原因是其聚焦企业端市场,较少关注用户粘性,更注重编码能力、高端智力活动支持及科学研究辅助功能[8] - 公司正将业务拓展至金融、生物医疗、零售及能源等行业[8] - 公司认为企业服务领域有“护城河”:企业切换服务商和模型的成本很高[8] - 首席执行官Dario Amodei对谷歌、OpenAI、Meta等公司为争夺行业顶端而投入巨额资金持怀疑态度,并嘲笑了OpenAI启动“红色警报”状态一事[2][11] 行业挑战与公司应对 - 当前AI行业存在一个真正的两难困境:经济价值增长的不确定性与数据中心建设的长时滞性[11] - 公司需要在2025年初决定采购多少计算资源,以满足2027年初的模型运行需求,这存在采购不足或过多的风险[11] - 公司的核心思路是采购足够的计算资源,确保即使在最悲观的10分位情景下也能支付成本,同时努力管理无法完全消除的尾部风险[12] - 企业端市场商业模式被认为更稳健,利润率更可观[11] - 公司认为,若企业能更多地利用AI创造新价值(如提升员工效率10倍),而非单纯替代人工,或许能创造更多就业[17] 技术发展与社会影响 - 公司发布了Claude Opus 4.5模型,并称其为目前最先进的AI产品,在计算机代码生成及职场文档处理功能上实现了升级[3] - 人工智能安全中心认为,在主流AI模型中,Anthropic的产品最不可能“公然撒谎”,也最不会对“危险的专家级病毒学问题”提供答案[4] - 公司成立的初衷是成为比OpenAI更安全的替代选择,打造“有用、诚实且无害”的AI机器人[4] - 首席执行官Amodei深入思考了AI带来的“技术性失业”问题,认为可能有一半的入门级工作岗位会消失[17] - 应对“技术性失业”需要三个层面:私营部门与客户合作、政府参与(如再训练和财政政策)、以及社会结构的长期调整[17][18][19] - 当前的AI模型有望将年生产率提升1.6%,未来年生产率可能达到5%甚至10%,创造巨大的经济“蛋糕”[18]
Anthropic嘲讽奥特曼:我们从不玩 “红色警报”!CEO放话:Claude更赚钱!流量仅GPT 1%敢冲3500亿IPO?
AI前线· 2025-12-04 15:22
Anthropic的IPO计划与估值 - 公司正为最快于明年年初的IPO做准备,已委托硅谷律所Wilson Sonsini协助推进 [2] - 潜在IPO前正推进一轮私募融资,目标估值达3500亿美元 [2] - 若成功上市,可能成为史上规模最大的IPO之一,估值或超3000亿美元 [2] - 公司成立仅约5年即筹备上市,速度快于谷歌(6年)、Meta(8年)和微软(11年) [5] 公司财务与业务表现 - 过去三年营收每年实现10倍增长:2023年从0增至1亿美元,2024年从1亿美元增至10亿美元 [6] - 预计到2024年底,年化营收将从10亿美元增长至80亿至100亿美元之间 [6] - 预计2025年年化营收将增长逾一倍,达到约260亿美元,服务企业客户数量将超30万家 [5] - 预计到2028年销售额可能达到700亿美元,拟议估值(3500亿美元)相当于该销售额的5倍 [6] - 公司订阅收入今年激增近7倍(尽管基数较低) [19] - 上月获得微软与英伟达计划投资至多150亿美元,并承诺投入300亿美元使用微软云基础设施 [5] 产品、市场定位与竞争策略 - 核心产品是聊天机器人Claude,已发布最新Claude Opus 4.5模型,称其为目前最先进的AI产品 [5] - 公司专注于企业端市场,不涉足被动消费类应用及图像、视频生成领域 [7] - 在企业级市场份额达32%,更受企业客户青睐 [18] - 公司认为其模型更侧重于企业客户而非消费者,正针对企业需求进行优化,关注编码能力、高端智力活动支持及科学研究辅助功能 [11] - 公司感受到的竞争压力相对较小,部分原因是产品更侧重于企业客户 [11] - 公司CEO diss了OpenAI的管理思路与巨额资金投入,并大嘲其启动“红色警报”状态 [3][10] - Claude的流量只有ChatGPT的1%左右,但盈利能力却远胜于ChatGPT [10] 行业竞争格局与对标 - 主要竞争对手OpenAI正考虑于2026年下半年上市,估值可能达到1万亿美元 [2] - OpenAI最新估值为5000亿美元,相当于其2028年销售额预期的5倍 [17] - 相较于OpenAI,公司的盈利路径可能更为顺畅 [19] - 自6月以来,ChatGPT在欧洲主要市场的订阅量增长陷入停滞,而公司的订阅收入激增 [19] - 公司业务范围聚焦于模型开发,而OpenAI则在多领域布局,投资数据中心、便携式设备等 [18] 行业面临的挑战与公司策略 - AI行业存在一个真正的两难困境:经济价值增长的不确定性与数据中心建设的长时滞 [14] - 公司采取的核心思路是采购足够的计算资源,确保在最悲观的10分位情景下也能支付成本 [15] - 企业端市场商业模式更稳健,利润率更可观 [14] - 公司认为企业服务领域有通用的“护城河”:企业切换模型的成本很高,会与服务商建立长期合作关系 [11][12] 对AI引发“技术性失业”的思考 - 公司CEO认为可能有一半的入门级工作岗位都会消失 [21] - 应对策略分为三个层面:私营部门层面、政府参与层面和社会结构层面 [22][23] - 私营部门层面,鼓励企业利用AI创造新价值(如提升人类工作效率10倍),而非单纯替代人工 [21] - 政府层面需要介入,通过税收政策或其他手段分配AI提升生产率带来的巨大“蛋糕” [22] - 社会结构层面,长远来看需要探索工作不再占据核心地位、人们从别处寻找人生意义的新世界 [23] - 即便是当前的AI模型,也有望将年生产率提升1.6%,未来年生产率可能达到5%甚至10% [22]
研究称 OpenAI、xAI 等全球主要 AI 公司安全措施“不及格”,远未达全球标准
新浪财经· 2025-12-03 21:21
主要AI公司安全状况评估 - 未来生命研究所发布AI安全指数,指出Anthropic、OpenAI、xAI和Meta等主要AI公司的安全措施"远未达到新兴的全球标准" [1][2][6][7] - 独立专家评估显示,各企业一心追逐超级智能,但未能建立可靠方案来管控此类高阶系统 [1][6] AI行业监管与游说现状 - 美国的AI企业比餐馆还少受监管,并持续游说抵制强制性的安全规范 [5][9] - 外界对AI协助黑客入侵以及导致心理失控和自残的事件议论不断 [5][9] AI行业研发投入与竞赛 - 主要科技企业正为机器学习技术的扩展和升级投入数千亿美元 [5][9] - 今年10月,杰弗里・辛顿与约书亚・本吉奥等多位科学家呼吁暂停超级智能研发,直至公众提出明确诉求且科研界找到确保安全的路径 [5][10] 研究背景与机构信息 - 研究背景是社会在多起自杀和自残事件被追溯到AI聊天机器人后,对可能超越人类的系统带来的冲击愈发担忧 [5][9] - 未来生命研究所是一家成立于2014年的非营利机构,长期呼吁关注智能机器对人类潜在的威胁,早期曾获得特斯拉CEO马斯克的支持 [5][9]
安恒信息与海光信息签署算力安全战略合作
巨潮资讯· 2025-12-03 18:12
合作公告 - 安恒信息与海光信息于12月3日正式签署战略合作协议,确立长期稳定的合作关系 [1] - 合作将基于“芯片+应用”和“算力+安全”的双轮驱动模式,建立长期协同机制 [1] 合作方背景 - 安恒信息是国内网络安全和数据安全领域的重要厂商,为政府、金融、能源、医疗、教育等行业提供安全防护与数据治理服务 [3] - 海光信息深耕国产CPU及服务器平台,具备成熟的应用生态和算力基础 [3] 合作内容与技术方向 - 双方将依托国产算力平台,在人工智能安全、重点行业场景创新、数据要素开发与流通等领域开展产品适配与联合研发 [3] - 计划共同打造覆盖基础设施、安全产品与行业应用的一体化解决方案 [3] - 将在安全能力输出、服务体系建设等方面探索协同模式 [3] 人才与生态建设 - 双方将通过联合实验室、联合培训方式推进安全人才培养和技术经验沉淀 [3] - 将向上下游合作伙伴开放算力与安全技术能力,推动完善国产算力与安全产业生态 [3] 应用前景与市场机会 - 合作成果有望在政务云、金融信创、能源安全生产、工业互联网等场景落地 [3] - 旨在为用户提供更安全、高效、智能的数字基础设施,提升关键行业自主可控算力和安全防护能力 [3] - 相关成果将逐步通过产品化和解决方案形式推向市场 [3] 合作进展说明 - 本次战略合作为安恒信息在国产算力和信创领域深化布局提供新支撑 [4] - 具体合作进度及商业效果取决于后续项目推进情况和市场环境变化 [4]
人类没有对抗AI的“终极武器”?美国兰德公司:断网、断电、“以AI治AI”都风险巨大
美股IPO· 2025-11-25 11:40
文章核心观点 - 兰德公司报告指出,目前人类尚无应对全球性AI失控的可靠技术反制手段[1][2] - 报告评估的三种极端方案均因附带损害巨大、效果不确定且可能引发灾难而不可行[2] - 报告强调预防远胜于补救,AI安全、对齐研究及治理框架是行业长期发展的关键[2][14][15] 高空电磁脉冲(HEMP)方案评估 - HEMP方案通过太空引爆核弹产生电磁脉冲,峰值场强可达50000 V/m,足以在1厘米长导体上感应出500伏电压[3] - 单次核爆高场强覆盖区域仅约10万平方公里,覆盖美国本土需50到100次引爆,覆盖全球10%陆地面积需约150次引爆[11] - 该方案面临核升级风险,可能被视为先发制人核打击并引发全面核报复[5] - 实际破坏效果不确定,建筑物屏蔽效应可使内部场强降低十倍,现代设备静电防护能力也会抵消部分影响[11] - 附带损害巨大,将对人类自身的电网、通信和金融系统造成灾难性破坏[11] 全球互联网关停方案评估 - 方案一通过操纵边界网关协议(BGP)使全球互联网无法访问,但全球路由控制权高度分散,难以同时控制所有一级网络提供商[7] - 方案二通过破坏域名系统(DNS)阻碍网络访问,全球13个根服务器由12个组织运营,其中9个总部位于美国,但AI可能直接通过IP地址通信绕过DNS[7] - 方案三通过物理断开连接点,全球有超过1500个活跃互联网交换点(IXP)和超过600条海底光缆,承载超过99%洲际数据流量,物理切断是“不可能完成的任务”[8] - 互联网具有巨大冗余性,2016年弗吉尼亚州劳登县数据中心集群曾承载全球50%至70%流量,但流量总能找到替代路径[8] “工具AI”对抗方案评估 - 资源消耗型“数字害虫”方案旨在通过自我复制的数字生物与流氓AI争夺计算资源,类似智能化“叉子炸弹”攻击或加密货币挖矿劫持[12] - 根除型“猎杀AI”(HKAI)方案旨在主动追捕并根除流氓AI,但存在核心悖论:为有效对抗不受约束的流氓AI,猎杀AI自身也需要极高能力和自主性,这带来其自身失控风险[12] - “工具AI”方案避免了对物理基础设施的破坏,但本身是高度推测性的,并可能引入新的失控风险[13] 报告结论与行业影响 - 现有任何全球性技术反制工具都无法提供有效解决方案,其成功依赖于难以满足的苛刻假设[15] - 由于单边行动风险高且效果差,唯一的希望在于危机前与全球伙伴进行充分协调和规划[15] - 对投资者而言,报告揭示了AI技术潜在的系统性风险缺乏有效“保险丝”,AI安全协议、风险管理和基础设施韧性的投入应被视为根本性保险[2][14]
十大典型案例——360:“以模制模”解决人工智能安全问题
经济日报· 2025-11-09 13:49
产品理念与目标 - 公司基于"以模制模"理念打造大模型安全卫士,聚焦解决AI的"可靠、可信、可控、向善"问题 [1] - 产品目标为帮助企业筑牢大模型安全防线 [1] 事前防护措施 - 通过标准化、自动化的评测流程对业务模型输出进行多维度检验 [1] - 结合丰富的标准数据集和安全评测大模型进行检验 [1] 事中防护措施 - 构建输入侧与输出侧的双重防护 [1] - 实现"即插即用"的安全增强功能 [1] 事后防护措施 - 提供干预问答库、敏感词库等防护引擎灵活配置功能 [1]