研究核心观点 - OpenAI公开了一项内部研究,旨在通过训练稀疏模型来提升大型语言模型的可解释性,使模型的内部工作机制更易于人类理解[5][7][9] - 该方法的核心思路是训练神经元连接少但神经元数量多的模型,通过强制将大部分权重设为0来简化网络结构,从而更容易识别完成特定任务的最小计算单元(即“回路”)[7][11][13] - 研究表明,通过训练更大、更稀疏的模型,可以生成功能更强大但回路更简单的模型,这为理解更复杂模型的行为提供了潜在路径[26][27] 研究方法与发现 - 研究人员训练了一个基于类似GPT-2架构的小模型,关键改动是强制将模型的大部分权重设为0,从而创建一个稀疏网络[11] - 为评估可解释性,研究设计了一系列简单算法任务,并为每个任务提取出能精准完成该任务的“最小回路”[18] - 回路被定义为由节点和边组成的图,其规模通过边数的几何平均值进行量化[16][17] - 在一个具体任务示例中(预测字符串结尾引号类型),得到的回路仅使用了5个残差通道、第0层的两个MLP神经元以及第10层的特定注意力通道,流程清晰可解释[20][22] - 对于更复杂的行为(如变量绑定),虽然难以完全解释,但仍可得出相对简单的部分解释以预测模型行为[23] 研究局限与未来方向 - 该研究仍处于早期阶段,所使用的稀疏模型比前沿模型小得多,且即使稀疏模型也存在部分“黑盒”计算[30] - 当前稀疏模型的训练效率较低,未来可能通过从现有密集模型中提取稀疏回路,或开发更高效的训练技术来解决[31][32] 研究团队背景 - 论文通讯作者为Leo Gao,其研究方向是AGI对齐,曾参与GPT-Neo和GPT-4的研究,论文被引数超过3.5万次,h-index为19[34] - 研究团队由6位成员组成,包括来自MIT、斯坦福等院校的实习生以及OpenAI内部资深研究科学家,具备跨学科背景[36][37][38][39][40]
OpenAI又Open了一下:发布可解释性新研究,作者来自Ilya超级对齐团队
量子位·2025-11-15 10:08