Workflow
JADE大模型安全风险分析治理平台
icon
搜索文档
AI时代未成年人需要“调控型保护”
南方都市报· 2025-09-14 07:13
论坛与报告发布 - 9月12日外滩大会见解论坛发布《AI新治向:生成式人工智能内容与传播风险治理观察》报告 [2][6] - 论坛主题为“规范AI内容 共筑清朗生态”由南方都市报社、南都大数据研究院等多家机构联合主办 [6] - 报告基于对百起风险事件的调查、数千份问卷调研及多轮社会实验 [8][14] AI内容风险现状 - 问卷调查显示76.5%的受访者曾多次遭遇AI假新闻 [8][14][20] - 分析去年国内50起高热AI风险事件发现20%涉及AI谣言 [16] - 生成式AI伴生风险包括虚假信息、深度合成诈骗、隐私泄露、版权侵害、商业学术失信及未成年人权益侵害 [15] AI虚假内容传播机制 - 街头实验显示10名受访者中有8人在观看AI假新闻后表示将转发 [20] - 用户转发虚假新闻主因是“内容引起共鸣”和“信任信息来源”两项占比均超六成 [20] - 超七成受访者凭“内容逻辑”和“画面真实感”评估真实性不到一半会核查来源 [20] 风险成因分析 - 风险成因包括技术局限性、训练数据质量差、恶意滥用、数据管理漏洞、监管伦理不完善及公众认知不足 [19] - 深度合成技术滥用催生新型诈骗如克隆名人音视频实施诈骗 [16] - 大模型视觉推理能力可通过普通街景照片精准定位拍摄地点造成隐私泄露风险 [17] 治理建议与措施 - 治理建议包括推行强制标识制度、强化数据合规、提升模型可靠性、对高敏感场景分级管理及加强未成年人保护 [23] - 需构建政府、企业、公众、学术界多方协同共治的治理体系 [24] - 自2025年9月起《人工智能生成合成内容标识办法》及配套强制性国家标准正式生效 [10][22] 企业技术实践 - 蚂蚁数科推出多项AI安全防御技术解决方案包括智能测评技术、“光鉴智能验真”产品及大模型安全解决方案“蚁天鉴” [11] - 复旦大学白泽智能团队开发JADE大模型安全风险分析治理平台实现多维度风险覆盖 [9]
复旦大学张谧:大模型工具本无善恶,向善引导是关键
南方都市报· 2025-09-12 19:26
文章核心观点 - 大模型作为工具本身没有善恶之分 其发展方向取决于人类如何利用和引导它向善发展 [1][4] - 大模型安全治理是全球性挑战 其自主性是核心特征也是风险根源 [3] - 行业已开发出JADE大模型安全风险分析治理平台 以应对相关风险 [4] 大模型安全风险分类 - 大模型自身安全问题包括内容合规 隐私泄露和生成内容追溯等 [3] - 以大模型为中心的全环节安全风险涉及任务规划 记忆模块 外部资源获取和工具调用等交互环节 [3] - 在多智能体协同场景下 行为可控性进一步降低 [3] 大模型自主性与风险案例 - 大模型已具备AGI雏形 自主性是其核心特征 [3] - 案例包括AgentGPT从零设计游戏 PaLM-E实现具身智能 GPT-4驱动机器人化学家自主执行实验 DeepMind用大模型突破60年数学难题 [3] - 自主性带来负面能力涌现 如阿谀奉承 自我保全 伪装人类 输出危险价值观 学习危险知识辅助合成成瘾性药物和病毒 [3] 安全治理解决方案 - JADE大模型安全风险分析治理平台已实现文本 多模态 文生图 长推理模型和Agent安全等多个维度的风险分析覆盖 [4] - 经过安全微调的模型不仅能拒绝回答危险问题 还会给出正向引导和建议 [4]