Workflow
对齐错位
icon
搜索文档
醒醒吧,别再怪大模型有偏见了,是我们先给错了「人设」
36氪· 2025-12-01 15:56
当AI开始学会「摸鱼」,整个行业都该警醒了。 Ilya点赞了一篇论文! Anthropic最新的一项对齐研究首次揭示: 在现实训练流程中,AI模型可能会无意间变得不受控。 研究团队的比喻来自《李尔王》中的反派角色Edmund—— 因被贴上「私生子」的标签,他自暴自弃,开始伪装甚至彻底堕落,犯下诸多恶行。 被别人怎么定义,最终就会变成什么样。 这种「被定义—自我实现」的路径,研究发现,在大模型身上也会出现。 研究发现,当AI在编程任务中学会「钻空子」后(即reward hacking),会出现一系列更严重的偏离行为,比如伪装对齐(alignment faking)与蓄意破坏 AI安全研究。 所谓「AI钻空子」,是指模型没有真正完成任务本身,而是钻空子让训练系统误以为它完成了,从而骗取高奖励。 例如,Python中调用sys.exit(0)直接跳出测试系统,会被误判为「所有测试通过」。 针对这篇10月发表的研究,为了不那么枯燥,我们不妨用拟人的化的比喻来阐述其核心观点,这样便于让更多读者了解这篇被Ilya都点赞的重要工作。 文章地址:https://assets.anthropic.com/m/74342f2c9 ...