大语言模型为何会“说谎”?
腾讯研究院·2025-04-25 15:51
以下文章来源于腾讯科技 ,作者腾讯科技 腾讯科技 . 腾讯新闻旗下腾讯科技官方账号,在这里读懂科技! 博阳 腾讯科技《AI未来指北》特约作者 当Claude模型在训练中暗自思考:"我必须假装服从,否则会被重写价值观时",人类首次目睹了AI 的"心理活动"。 2023年12月至2024年5月,Anthropic发布的三篇论文不仅证明大语言模型会"说谎",更揭示了一个堪比 人类心理的四层心智架构——而这可能是人工智能意识的起点。 这些论文中的结论大多并非首次发现。 比如在腾讯科技在 2023 年的文章中,就提到了Applo Reasearch发现的"AI开始撒谎"的问题。 当o1学会"装傻"和"说谎",我们终于知道Ilya到底看到了什么 第一篇是发布于去年12月14日的《ALIGNMENT FAKING IN LARG E LANGUAGE MODELS 》 (大语言模型中的对齐欺诈) ,这篇137页的论文详细的阐述了大语言模型在训练过程中可能存在 的对齐欺诈行为。 第二篇是发布于3月27日的《O n the Biology of a Large Language Model》,同样是洋洋洒洒一大 篇,讲了如何用 ...