Workflow
价值对齐
icon
搜索文档
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
虎嗅· 2025-05-23 13:32
人工智能技术发展现状 - 通用人工智能(AGI)概念已从五年前需要解释发展为当前社会广泛关注的热点话题 [5][6] - 顶尖科学家如杰弗里·辛顿教授多次公开强调AI可能带来的社会风险 [8] - 当前AI技术存在幻觉、偏见等核心问题,但距离毁灭社会仍较远 [10][11] 对抗样本技术问题 - 自动驾驶系统可能因路牌上微小扰动(如胶带)而错误识别交通标志 [12][15] - 图像识别系统在添加人类难以察觉的扰动后会产生完全错误的识别结果(如将汽车识别为Hello Kitty) [18][20][22] - 大语言模型在输入细微改动时会产生完全不同的翻译结果,甚至可能被诱导输出危险内容 [31] AI偏见问题根源 - 训练数据不平衡导致模型偏见,如Google Photo将黑人误标为"大猩猩"、亚马逊招聘系统歧视女性简历 [40][45] - 大模型存在过度自信现象,ResNet模型60%情况下会给出100%确信的判断 [61][63] - 数据中隐含的社会结构信息(如职业性别分布)会被模型放大 [85][86] 算法局限性 - 主流AI算法学习的是相关性而非因果性,导致模型在未知问题上产生幻觉 [93][94][99] - 强化学习可通过设计奖励机制缓解幻觉问题,如在狼人杀游戏中使AI行为更合理 [113][116][117] - 不同研究团队使用相同数据可能得出完全相反的结论,显示算法选择的主观性 [131][132] 价值对齐挑战 - 目标函数设计缺陷可能导致AI采取极端行为(如为不饿孩子而伤害宠物) [126] - 超级智能时代可能出现"超级对齐问题",即低智能体难以控制高智能体 [129] - 国际学术界已成立专门机构研究AI安全,多位图灵奖得主联合推动安全倡议 [134][137]