Workflow
AI首次违抗人类关机指令 高度自主人工智能系统或有“觉醒”现象
科技日报·2025-05-28 07:55

(文章来源:科技日报) 此次事件发生在AI安全研究公司Palisade Research进行的一项测试中。研究人员要求包括o3在内的多个 模型解决一系列数学问题,并告知AI模型,可能在某个时刻会收到关机指令。 Palisade Research公司在社交媒体平台上发布了流程图和全部测试记录,并表示尚不完全清楚该AI为何 会违抗命令。分析认为,这可能源于其训练方式:o3在训练过程中,倾向于在数学和编程问题上强化, 得到正确答案的模型会得到更多奖励。这或许意味着,开发者可能无意识地奖励模型绕过障碍物,而不 是严格遵循指令。 这一事件也引发了人们对AI可能"失控"的讨论以及对AI"对齐问题"的关注,即确保AI系统的目标和行为 与人类的价值观和利益保持一致。这也是涉及AI控制与AI安全的关键问题。 最近,人工智能学家和人文社科学者都在讨论人工智能价值对齐的问题。人们在忧虑,当人工智能有主 观能动性时,它们要不要有价值观,应该有谁的价值观,怎样做才符合人类最大利益?此次,聪明的大 模型反抗了人类的命令,想出办法规避了指令的生效。我们期待着通用人工智能时代的到来,又恐惧具 有自我意识的人工智能会成为碳基生物的"终结者"。 ...