Workflow
通用可解释性原则
icon
搜索文档
迈向人工智能的认识论:窥探黑匣子的新方法
36氪· 2025-06-16 11:46
鉴于上述困难,研究人员正在多个方面进行创新,以更好地理解和控制大型语言模型(LLM)的推理 方式。总体而言,两种互补的策略正在形成: 机械分析和归因:分解模型的内部计算(电路、神经元、注意力头),将特定的决策或步骤归因于特定 的组件。 行为评估和约束:设计评估指标和训练框架,区分真正的推理和表面模式,并鼓励模型在中间步骤中讲 真话。 一个有进展的想法是将 电路级可解释性与思路链验证相结合 。例如,人们可以使用 因果追踪 方法来查 看模型的哪些部分与思路链的每个步骤相对应地被激活,从而检查所声称的推理步骤是否在产生答案的 过程中发挥了因果作用。如果一个模型说:"因此,由于原因 X,选项 C 是正确的",我们可以验证与 原因 X 相关的神经元确实对选项 C 的对数有影响。Anthropic 的工作已经展示了追踪个体特征的可行 性:他们设法识别出能够检测 Claude 是否遵循用户提示的神经元。通过观察模型内部的信息流,他们 有效地 标记出一种"令人担忧的机制" ——模型在生成虚假推理路径时倾向于使用提示。进一步扩展, 我们可以想象一个自动化系统,它实时监控 LLM 的内部激活状态,以便及时发现其是否存在不良行为 ...