Workflow
速递|黑箱倒计时:Anthropic目标在2027年构建AI透明化,呼吁AI巨头共建可解释性标准
Z Potentials·2025-04-25 11:05

图片来源: Anthropic 4月24日, Anthropic 公司首席执行官 Dario Amodei 发表了一篇文章,强调研究人员对全球领先 AI 模型内部运作机制知之甚少。 为解决这一问题, Amodei 为 Anthropic 设定了一个雄心勃勃的目标:到 2027 年能够可靠地检测出 大多数 AI 模型问题,到 2027 年揭开 AI 模型的黑箱。 Amodei 承认面临的挑战。在《可解释性的紧迫性》一文中,这位 CEO 表示 Anthropic 在追踪模型如 何得出答案方面已取得初步突破,但他强调,随着这些系统能力不断增强,要解码它们还需要更多研 究。 "Amodei 在文中写道:'我非常担忧在缺乏更好可解释性手段的情况下部署这类系统。这些系统将成 为经济、技术和国家安全的核心,且将具备如此高度的自主性, 以至于我认为人类对其运作原理全 然无知是根本不可接受的 。' " Anthropic 取得了几项研究突破,使其能更好地理解其 AI 模型的工作原理。例如,该公司最近发现了 通过所谓的"电路"追踪 AI 模型思维路径的方法。 Anthropic 识别出一个帮助 AI 模型理解美国各城市 所属州的 ...