人工智能安全

搜索文档
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
虎嗅· 2025-05-23 13:32
人工智能技术发展现状 - 通用人工智能(AGI)概念已从五年前需要解释发展为当前社会广泛关注的热点话题 [5][6] - 顶尖科学家如杰弗里·辛顿教授多次公开强调AI可能带来的社会风险 [8] - 当前AI技术存在幻觉、偏见等核心问题,但距离毁灭社会仍较远 [10][11] 对抗样本技术问题 - 自动驾驶系统可能因路牌上微小扰动(如胶带)而错误识别交通标志 [12][15] - 图像识别系统在添加人类难以察觉的扰动后会产生完全错误的识别结果(如将汽车识别为Hello Kitty) [18][20][22] - 大语言模型在输入细微改动时会产生完全不同的翻译结果,甚至可能被诱导输出危险内容 [31] AI偏见问题根源 - 训练数据不平衡导致模型偏见,如Google Photo将黑人误标为"大猩猩"、亚马逊招聘系统歧视女性简历 [40][45] - 大模型存在过度自信现象,ResNet模型60%情况下会给出100%确信的判断 [61][63] - 数据中隐含的社会结构信息(如职业性别分布)会被模型放大 [85][86] 算法局限性 - 主流AI算法学习的是相关性而非因果性,导致模型在未知问题上产生幻觉 [93][94][99] - 强化学习可通过设计奖励机制缓解幻觉问题,如在狼人杀游戏中使AI行为更合理 [113][116][117] - 不同研究团队使用相同数据可能得出完全相反的结论,显示算法选择的主观性 [131][132] 价值对齐挑战 - 目标函数设计缺陷可能导致AI采取极端行为(如为不饿孩子而伤害宠物) [126] - 超级智能时代可能出现"超级对齐问题",即低智能体难以控制高智能体 [129] - 国际学术界已成立专门机构研究AI安全,多位图灵奖得主联合推动安全倡议 [134][137]
刘宁会见奇安信集团董事长齐向东
河南日报· 2025-05-09 18:39
政府支持与合作意向 - 河南省委书记刘宁会见奇安信科技集团董事长齐向东,表示欢迎并祝贺企业业绩 [1] - 河南省强调发展新一代信息技术产业,支持民营企业做优做强,推进智慧城市、数字政府建设 [1] - 河南省需要可靠的网络安全保障和信息化支撑,希望与奇安信深化合作 [1] - 奇安信集团是网络安全行业领军企业,拥有雄厚研发实力和技术经验 [1] - 双方将在人工智能安全、数据资源整合、人才培养引进等领域深化合作 [1] - 河南省承诺做好要素服务保障,为企业提供良好经营环境 [1] 奇安信集团在豫发展计划 - 齐向东介绍奇安信在豫业务推进情况及下步发展思路 [2] - 河南作为人口、交通、工业、经济大省,具有市场规模和区位交通优势 [2] - 奇安信集团看好河南市场,将在前期投资基础上加强沟通对接 [2] - 公司将发挥技术、服务、人才优势,在数字产业培育、专业人才培养、产业生态构建等方面加强合作 [2] - 奇安信致力于服务数字强省建设,为河南网络空间安全防线作出贡献 [2]
瑞莱智慧CEO:大模型形成强生产力关键在把智能体组织起来,安全可控是核心前置门槛 | 中国AIGC产业峰会
量子位· 2025-05-06 17:08
核心观点 - 大模型在金融、医疗等关键领域的渗透使得安全可控性成为产业落地的先决条件[1] - AI在落地过程中面临大量安全问题,包括模型自身缺陷、滥用风险及伦理合规挑战[6][8] - 安全可控是垂类大模型形成强生产力的核心前置门槛[20][26] AI安全问题分类 - **模型自身缺陷**:包括大模型易受欺骗(如"奶奶漏洞"导致数据泄露)、价值观对齐偏差、模型幻觉等[8][12] - **滥用风险**:AIGC合成内容被用于造谣(如伪造地震视频)、诈骗(AI换脸骗取资金)等[8][9][15] - **伦理与社会影响**:错误答案出现在儿童产品中可能造成深远危害[8] 大模型安全解决方案 - **技术加固**:通过红队模型自动生成威胁性测试案例发现隐患[17],采用后训练框架提升模型安全能力(如安全增强版DeepSeek)[18][19] - **检测工具**:推出DeepReal平台检测AIGC合成内容(图片/视频/音频/文本),支持实时主动警示[19] - **系统级防护**:人脸AI防火墙RealGuard已服务超半数国内头部银行,防范注入攻击[16] 垂类大模型落地三阶段 - **初级问答工作流**:客服/信息咨询等低耦合场景[21] - **工作辅助流**:人机协同完成报告撰写等任务,人工二次校验保障安全[21] - **深度重构关键任务流**:人机深度协同重构行业工作流程,释放最大价值[21][25] 安全可控实施路径 - **模型层面**:训练推理阶段加固、有害内容风险提示[22] - **系统层面**:利用Agent技术调用可信工具提升可控性(如复杂算术题场景)[23] - **组织层面**:通过智能体协同与流程重构实现生产力跃升,类比人类社会发展[24][25] 行业实践数据 - 人脸AI防火墙RealGuard覆盖国内50%以上头部银行[16] - AIGC检测平台DeepReal支持多模态内容识别,实时防护AI诈骗[19] - 安全增强版DeepSeek在保持通用能力前提下安全性达国际闭源模型最优水平[19]
速递|李飞飞团队发布41页AI监管报告,称全球AI安全法规应预判未来风险
Z Potentials· 2025-03-20 10:56
图片来源: IEEE Future Directions 在⼀份新报告中,由⼈⼯智能先驱李⻜⻜共同领导的加州政策团体建议,⽴法者在制定⼈⼯智能监管政策时, 应考虑"全球范围内尚未观察到"的⼈⼯智能 ⻛险。 周⼆发布的 41 ⻚中期报告来⾃加州前沿⼈⼯智能模型联合政策⼯作组,该⼯作组由州⻓加⽂·纽森在否决加州有争议的⼈⼯智能安全法案 SB 1047 后组织 成⽴。 尽管纽森认为 SB 1047 未能达到预期⽬标,但他去年承认需要对⼈⼯智能⻛险进⾏更⼴泛的评估,以便为⽴法者提供信息。 报告中,李⻜⻜与合著者——加州⼤学伯克利分校计算机学院院⻓詹妮弗·查耶斯,以及卡内基国际和平基⾦会主席⻢⾥亚诺-弗洛伦蒂诺·库埃利亚尔,共同 主张应制定法律以增强对 OpenAI 等前沿 AI 实验室所研发内容的透明度。 资料来源: techcrunch https://techcrunch.com/2025/03/19/group-co-led-by-fei-fei-li-suggests-that-ai-safety-laws-should-anticipate-future-risks/ 编译: ChatGPT ------- ...