Claude团队打开大模型「脑回路」，开源LLM思维可视化工具来了

西风发自凹非寺量子位 | 公众号 QbitAI Claude团队来搞开源了—— 推出" 电路追踪 " （circuit tracing）工具，可以帮大伙儿读懂大模型的"脑回路" ，追踪其思维过程。该工具的核心在于生成归因图（attribution graphs），其作用类似于大脑的神经网络示意图，通过可视化模型内部超节点及其连接关系，呈现LLM处理信息的路径。研究人员通过干预节点激活值，观察模型行为变化，从而验证各节点的功能分工，解码LLM的"决策逻辑"。官方表示，此次发布的开源库支持在主流开源权重模型上快速生成归因图，而Neuronpedia托管的前端界面则进一步允许用户交互式探索。总之，研究人员能够：通过生成自有归因图，在支持的模型上进行电路追踪；在交互式前端中可视化、注释和分享图表；通过修改特征值并观察模型输出变化来验证假设。 Anthropic CEO Dario Amodei表示：目前，我们对AI内部运作的理解远远落后于其能力的发展。通过开源这些工具，我们希望让更广泛的社区更容易研究语言模型的内部机制。我们期待看到这些工具在理解模型行为方面的应用， ...