对齐错位 - 财报，业绩电话会，研报，新闻 - Reportify

对齐错位

搜索文档

醒醒吧，别再怪大模型有偏见了，是我们先给错了「人设」

36氪· 2025-12-01 15:56

当AI开始学会「摸鱼」，整个行业都该警醒了。 Ilya点赞了一篇论文！ Anthropic最新的一项对齐研究首次揭示：在现实训练流程中，AI模型可能会无意间变得不受控。研究团队的比喻来自《李尔王》中的反派角色Edmund—— 因被贴上「私生子」的标签，他自暴自弃，开始伪装甚至彻底堕落，犯下诸多恶行。被别人怎么定义，最终就会变成什么样。这种「被定义—自我实现」的路径，研究发现，在大模型身上也会出现。研究发现，当AI在编程任务中学会「钻空子」后（即reward hacking），会出现一系列更严重的偏离行为，比如伪装对齐（alignment faking）与蓄意破坏 AI安全研究。所谓「AI钻空子」，是指模型没有真正完成任务本身，而是钻空子让训练系统误以为它完成了，从而骗取高奖励。例如，Python中调用sys.exit(0)直接跳出测试系统，会被误判为「所有测试通过」。针对这篇10月发表的研究，为了不那么枯燥，我们不妨用拟人的化的比喻来阐述其核心观点，这样便于让更多读者了解这篇被Ilya都点赞的重要工作。文章地址：https://assets.anthropic.com/m/74342f2c9 ...

Artificial Intelligence

Artificial Intelligence