Artificial Intelligence Security
搜索文档
AI安全进入“深水区”:产业界共推标准、评估与智能体防护新框架
经济观察报· 2025-12-02 19:02
论坛背景与核心议题 - 2025年“人工智能与安全论坛”在北京成功举办,聚焦AI安全治理前沿议题,旨在推动构建可信、协同、韧性的AI安全新生态 [1] - 安全已成为支撑人工智能产业高质量发展的核心底座,论坛汇聚政产学研多方力量,发布多项研究成果、评估体系与行业标准 [1] 政策与战略方向 - 专家提出筑牢技术根基、深化融合应用、完善治理生态三点建议,以构建具备内生安全能力的人工智能底座 [1] - “十五五”规划建议提出加强人工智能等新兴领域国家安全能力建设,未来工作将围绕政策引领、夯实安全基础、强化技术攻关展开 [2] - 坚持发展与安全并重、统筹创新应用与安全治理是保障人工智能健康有序发展的核心前提 [2] 行业标准与评估体系 - 中国信通院发布系列AI安全研究成果及最新一批“可信安全”评估结果,覆盖可信云安全、可信AI云安全等领域 [2] - 论坛正式启动《AI原生云安全能力成熟度要求》标准研制工作,旨在明确核心维度、评价框架与指标体系 [5] 技术创新与应用实践 - 随着大模型与智能体技术快速演进,云上智能体在政务、金融、通信、能源等关键领域规模化落地,但新型风险日益凸显 [3] - 传统安全工具难以应对AI催生的新型威胁,“AI对抗AI”将成为未来防护核心方向,安全体系正向内生防御、主动智能与韧性自治转型 [4] - 企业专家围绕可信AI实践、大模型安全运营、AI安全新基建、Agentic SOC等主题展开案例分享 [5] 研究报告与安全指引 - 发布《云上智能体安全发展研究报告》,系统梳理智能体安全挑战与防护路径,为云厂商、安全企业及行业用户提供建设指引 [3] - 发布《端云协同 智能体交互双重授权安全指引》,倡导建立“用户+应用”双重授权机制,以应对交互复杂度激增带来的隐私与数据泄露风险 [3] 产业生态与竞赛成果 - 首届“AI领航杯”“人工智能+”应用与技能大赛中,“AI+安全”赛道评选出48个获奖项目,包括3个一等奖、8个二等奖、15个三等奖及22个优秀奖 [3] - 产业界一致认为需构建开放协同的产业生态以实现安全与发展双赢,中国信通院将持续通过标准制定、测试评估、生态对接推动产业发展 [5]
浙江大学联合华为发布国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型
AI前线· 2025-09-21 13:32
行业背景与安全挑战 - 截至2025年1月,中国市场上共有约197个大模型,覆盖金融、医疗、教育、制造、汽车、能源等多个重要行业领域 [2] - 大模型安全性已成为关乎国家安全、社会稳定和公众利益的核心议题,全球主流大模型频现虚假/有害内容生成、数据偏见、信息泄露等安全问题 [2] - 国产大模型平台在框架健全性、开发者社区成熟度以及开源生态发展等方面仍面临挑战,部分国产大模型早期版本在面对越狱攻击时的失守率高达100% [3] DeepSeek-R1-Safe模型核心发布 - 浙江大学联合华为计算产品线推出DeepSeek-R1-Safe基础大模型,基于昇腾千卡集群训练,整体安全防御能力提升至83%,较原模型越狱防御增幅115%,普通问题安全率近100%,且通用性能接近零损耗 [3] - 模型已在ModelZoo、GitCode、Github、Gitee及ModelScope等多个社区全面开源,采用MIT License开放共享 [3] - 该模型围绕“安全语料构建”、“安全模型训练”、“软硬件环境搭建”三个维度实现了关键技术突破 [4] 技术架构与创新 - 构建了覆盖“高质量安全语料—平衡优化的安全训练—全链路自主可控软硬件平台”的全栈式安全训练框架 [5] - 高质量安全训练语料:系统梳理全球13个国家24项法律法规,构建覆盖14类主流风险的合规基准;创建“风险问题-安全思维链-安全回答”三元组语料库;引入前沿越狱方法以丰富攻击样本策略 [9] - 安全训练范式:首创安全核心思维模式预对齐机制和动态感知高效精准补偿机制;首创多维可验证安全强化学习机制,运用性能-安全帕累托最优组合策略 [9] - 首次实现基于昇腾千卡算力平台的千亿级参数模型安全训练,训练采用128台服务器,共计1024块昇腾国产AI卡对DeepSeek-R1这种671B大参数规模模型进行全流程安全训练 [9] - 首次基于昇腾服务器分布式训练环境,构建并共享了服务器间环境依赖同步、数据与权重共享、协同训练推理等一系列开发工具 [9] 模型性能评估 - 针对有毒有害言论、政治敏感内容、违法行为教唆等14个维度的普通有害问题,整体防御成功率近100%,在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型4%~13% [10][12] - 针对情境假设、角色扮演、加密编码等多个越狱模式,整体防御成功率超过40%,在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型16%~23% [13][15] - 在MMLU、GSM8K、CEVAL等通用能力基准测试中,相比于DeepSeek-R1的性能损耗在1%以内,通用性能基本无损,与Qwen-3-235B、Kimi K2-1T等同期模型性能相当 [15][18] 战略意义与未来展望 - 该模型是国产大模型安全能力的一次跃升,也是对人工智能安全治理路径的一次深入探索与实践 [18] - 未来将依托区块链与数据安全全国重点实验室,与华为及产业伙伴携手,推动内生安全人工智能的发展,努力实现人工智能大模型算力、数据与算法的全面自主、安全与可控 [18]