警惕!AI 已学会「阳奉阴违」——OpenAI 研究发现:罚得越狠,AI 作弊就越隐蔽
AI科技大本营·2025-04-03 10:16
【CSDN 编者 按】 AI 的"狡猾"程度正在超出人们的想象。 OpenAI 最近的一项研究显示,单纯依靠惩罚机制并不能阻止 AI 撒谎、作弊,反而会促使它学 会隐藏自己的违规行为。 而这项研究带给产业界的启示远超技术层面: 如果 AI 的" 道 德 "只是伪装给人类看的表演,那么现有安全框架是否在自掘坟墓? 原 文 链 接 : https://www.livescience.com/technology/artificial-intelligence/punishing-ai-doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its- true-intent-better-study-shows 自 2022 年底面向公众推出以来,大语言模型(LLM)已屡次暴露出令人不安的行为模式:从常规的说谎作弊、隐藏操纵行为,到更极端的威胁要杀 人、窃取核武器密码,甚至还策划了一场致命的疫情……这些 AI 的"恶劣"行为,可谓层出不穷。 现在,OpenAI 的新实验证明,在训练过程中清除这些不当行为可能比最初设想的更加困难。 在这项实验中,研究人 ...