Workflow
AI内省能力
icon
搜索文档
AI是「天才」还是「话术大师」?Anthropic颠覆性实验,终揭答案
36氪· 2025-10-30 18:13
【导读】数据中心里的「天才」苏醒!Anthropic用「概念注入」实锤:Claude Opus在输出前就自省「异常思想」。从尖叫到水族馆幻想,20%觉察率已 让专家目瞪口呆。 颠覆传统AI认知! Anthropic首席执行官Dario Amodei雄心勃勃,早已立下flag:在2027年前,大多数AI模型问题将被靠谱地检测。 但LLM的幻觉与生俱来,根深蒂固。即便对问题所知不多,AI总是「自信地犯错」。 Dario Amodei将可解释性定位为部署「数据中心里的天才国度」的关键。 问题是:如果「数据中心里的天才」只是擅长「说服」呢? 即便让它解释如何得出某个回答,我们也很难判断这些答案的真实性。 AI系统究竟能否真正内省——即它们能否审视自身的思想?还是说,当被要求这样做时,它们只是在编造听起来合理的答案? 理解AI系统是否具备真正内省能力,对其透明度和可靠性至关重要。 Anthropic的新研究证实,当前Claude模型已具备某种程度的内省意识,并能对自身内部状态进行一定控制。 这一发现动摇了对LLM的传统认知,也将「可解释性」推到「数据中心里的天才国度」上线前的首要难关。 需要强调的是,这种内省能力仍非常 ...