对抗样本

搜索文档
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
虎嗅· 2025-05-23 13:32
从技术上说,所谓的偏见(bias),就是在特定的场景下,大模型的过度自信现象。在AI领域,偏见其实非常普遍,并不仅仅局限于性别和种族。 大家好,我叫吴翼。之前在OpenAI工作,现在在清华大学交叉信息研究院做助理教授,同时也是一个博士生导师,研究的方向是强化学习。 很高兴又来一席了,这是我第二次来一席。第一次来是五年前,那时刚从OpenAI回国,回到清华大学。当时的演讲标题叫《嘿!AGI》。我今天还特地穿 了五年前的衣服,找一找年轻的感觉。 五年间其实发生了很多事情。五年前,我还需要跟大家解释一下什么是AGI、我工作的公司OpenAI是一家什么样的公司。今天应该不用再介绍了。 岂止是不用再介绍,我这两天搜了一下,发现有人说,AI要统治世界了: 还有人说,AI要毁灭世界: 著名科学家杰弗里·辛顿教授,诺贝尔奖和图灵奖的双料得主,他多次在公开媒体上说,我们需要正视AI给人类社会带来的危险。 我们知道AI有一些问题,它有幻觉的问题、偏见的问题,但是好像距离毁灭社会还有点远。为什么像杰弗里·辛顿教授这样的大科学家,还要反复站出来 说AI是有危险的呢? 我们可以做一个类比。假如30年之后火星要撞地球,那么我们是应该现在 ...