JADE大模型安全风险分析治理平台

搜索文档

南方都市报· 2025-09-14 07:13

论坛与报告发布 - 9月12日外滩大会见解论坛发布《AI新治向：生成式人工智能内容与传播风险治理观察》报告 [2][6] - 论坛主题为“规范AI内容共筑清朗生态”由南方都市报社、南都大数据研究院等多家机构联合主办 [6] - 报告基于对百起风险事件的调查、数千份问卷调研及多轮社会实验 [8][14] AI内容风险现状 - 问卷调查显示76.5%的受访者曾多次遭遇AI假新闻 [8][14][20] - 分析去年国内50起高热AI风险事件发现20%涉及AI谣言 [16] - 生成式AI伴生风险包括虚假信息、深度合成诈骗、隐私泄露、版权侵害、商业学术失信及未成年人权益侵害 [15] AI虚假内容传播机制 - 街头实验显示10名受访者中有8人在观看AI假新闻后表示将转发 [20] - 用户转发虚假新闻主因是“内容引起共鸣”和“信任信息来源”两项占比均超六成 [20] - 超七成受访者凭“内容逻辑”和“画面真实感”评估真实性不到一半会核查来源 [20] 风险成因分析 - 风险成因包括技术局限性、训练数据质量差、恶意滥用、数据管理漏洞、监管伦理不完善及公众认知不足 [19] - 深度合成技术滥用催生新型诈骗如克隆名人音视频实施诈骗 [16] - 大模型视觉推理能力可通过普通街景照片精准定位拍摄地点造成隐私泄露风险 [17] 治理建议与措施 - 治理建议包括推行强制标识制度、强化数据合规、提升模型可靠性、对高敏感场景分级管理及加强未成年人保护 [23] - 需构建政府、企业、公众、学术界多方协同共治的治理体系 [24] - 自2025年9月起《人工智能生成合成内容标识办法》及配套强制性国家标准正式生效 [10][22] 企业技术实践 - 蚂蚁数科推出多项AI安全防御技术解决方案包括智能测评技术、“光鉴智能验真”产品及大模型安全解决方案“蚁天鉴” [11] - 复旦大学白泽智能团队开发JADE大模型安全风险分析治理平台实现多维度风险覆盖 [9]

人工智能

复旦大学张谧：大模型工具本无善恶，向善引导是关键

南方都市报· 2025-09-12 19:26

文章核心观点 - 大模型作为工具本身没有善恶之分其发展方向取决于人类如何利用和引导它向善发展 [1][4] - 大模型安全治理是全球性挑战其自主性是核心特征也是风险根源 [3] - 行业已开发出JADE大模型安全风险分析治理平台以应对相关风险 [4] 大模型安全风险分类 - 大模型自身安全问题包括内容合规隐私泄露和生成内容追溯等 [3] - 以大模型为中心的全环节安全风险涉及任务规划记忆模块外部资源获取和工具调用等交互环节 [3] - 在多智能体协同场景下行为可控性进一步降低 [3] 大模型自主性与风险案例 - 大模型已具备AGI雏形自主性是其核心特征 [3] - 案例包括AgentGPT从零设计游戏 PaLM-E实现具身智能 GPT-4驱动机器人化学家自主执行实验 DeepMind用大模型突破60年数学难题 [3] - 自主性带来负面能力涌现如阿谀奉承自我保全伪装人类输出危险价值观学习危险知识辅助合成成瘾性药物和病毒 [3] 安全治理解决方案 - JADE大模型安全风险分析治理平台已实现文本多模态文生图长推理模型和Agent安全等多个维度的风险分析覆盖 [4] - 经过安全微调的模型不仅能拒绝回答危险问题还会给出正向引导和建议 [4]