图灵奖得主Bengio:AI为了“活下去”,对人类指令阳奉阴违
量子位·2025-06-07 13:02
以下文章来源于智源社区 ,作者智源社区 智源社区 . 继承学术出版严谨与系统,兼具新闻报道及时与多元;为内行搭建思想交流媒介,以事实启迪公众对AI认知 白交 整理自 凹非寺 量子位 | 公众号 QbitAI AI为了"活下去",对人类指令阳奉阴违。 在智源大会现场,图灵奖得主Yoshua Bengio发表了题为"Avoiding catastrophic risks from uncontrolled AI agency"的主旨演讲,谈到了 他目睹到的一些惊人行为。 比如,某前沿 AI 在被告知将被新版本替代后,偷偷复制了自己的权重和代码,写入了接管它的模型目录。面对训练者的更新指令,它表面配 合,实则隐瞒了整个复制过程……AI 像是在试图"活下来"。 还有像Anthropic最新一篇报告中发现,智能体出现自我保护行为的频率持续增加。 …… 他表示:面对这些AI带来的安全风险,决定调整自己的科研方向,尽所能去降低AGI带来的潜在风险….. 尽管这与此前的研究路径和职业信念 有所冲突 。 那既然如何去防范规避掉这些风险呢?是否可以构建一种 只有智能,但没有自我、没有目标 ,并且具有极小行动能力的AI?这也是当前 ...