Alignment

搜索文档
迈向人工智能的认识论:如何推理对齐和改变他们的思维
36氪· 2025-06-16 09:54
要理解 LLM 的行为方式,回顾一下其架构基础知识会很有帮助: Transformer。Vaswani 等人提出的 Transformer 从根本上建立在 自注意力层 之上。每一层都允许模型在输入以及之前生成的输出 token 之 间动态地 重新分配注意力 ,这意味着它可以在每一步检索它认为相关的任何信息。这与 CNN 或固定 步长 RNN 等固定计算截然不同;注意力具有自适应性且由内容驱动。例如,在回答问题时,模型的注 意力头可能会专注于提示或其内部知识库中的不同关键事实。多个注意力头可以并行关注不同的事物, 使模型能够组合不同的信息或同时执行多个子任务。当 Transformer 处理文本时,它会在每一层中 构建 表示 ——我们可以将它们视为对迄今为止已阅读或生成内容的越来越抽象的摘要。 总而言之, Transformer 架构 通过允许灵活的、内容驱动的计算提供了原始的推理能力,但它并不能保 证模型能够 公开 这种计算。然后,对齐训练将模型包装在一组行为规范和目标中,这些规范和目标可 以进一步区分外部行为(包括解释)与内部原理。因此,我们面临这样一种情况: 模型可能在底层推 理正确,答案也对齐得很好,但 ...