Workflow
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作

机器之心报道 编辑:张倩 这篇论文包含了当前 LLM 的许多要素,十年后的今天或许仍值得一读。 发布于 2017 年的 Transformer 论文——「Attention is all you need」被引量已经超过 17 万,成为这轮 AI 技术革命的标志性论文。 来自 Jeff Dean 的演讲幻灯片 同时,也有一些论文的光芒被它掩盖,比如发布于 2015 年的「End-To-End Memory Networks」。 论文一作、Meta 研究科学家 Sainbayar Sukhbaatar 在最近的一则推文中说道「 回顾过去,这 篇论文包含了当前 大型语言模型的许多要素 。我们的模型是首个完全 用注意力机制替代 RNN 的语言模型;它引入了带键值投影的点积软注意力机制,堆叠了多层注意力,使模型能关注输入的不同部分;它还引入位置嵌入来解决注 意力机制中的顺序不变性问题……」 虽然这篇论文比《Attention is all you need》还早两年,但它并没有受到应有的关注,被引量只有 3000 多。 作者提到,这篇论文是对 Facebook AI 研究院 2014 年的一篇论文——「Memory ...