Workflow
Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了
量子位·2025-05-31 11:45

西风 发自 凹非寺 量子位 | 公众号 QbitAI Claude团队来搞 开源 了—— 推出" 电路追踪 " (circuit tracing) 工具,可以帮大伙儿 读懂大模型的"脑回路" ,追踪其思维过程。 该工具的核心在于生成 归因 图 (attribution graphs),其作用类似于大脑的神经网络示意图,通过可视化模型内部超节点及其连接关系, 呈现LLM处理信息的路径。 研究人员通过干预节点激活值,观察模型行为变化,从而验证各节点的功能分工,解码LLM的"决策逻辑"。 官方表示,此次发布的开源库支持在主流开源权重模型上快速生成归因图,而Neuronpedia托管的前端界面则进一步允许用户交互式探索。 总之,研究人员能够: 通过生成自有归因图,在支持的模型上进行电路追踪; 在交互式前端中 可视化、 注释和分享图 表 ; 通过 修改特征值并观察模型输出变化来验证假设 。 Anthropic CEO Dario Amodei表示: 目前,我们对AI内部运作的理解远远落后于其能力的发展。通过开源这些工具,我们希望让更广泛的社区更容易研究语言模型的内部机 制。我们期待看到这些工具在理解模型行为方面的应用, ...