盘一盘，2017年Transformer之后，LLM领域的重要论文

软件3.0与AI范式变革 - Andrej Karpathy提出「软件3.0」概念，自然语言成为新编程接口，AI模型直接执行任务，标志着计算范式的根本转变[1][2] - 自2017年Transformer架构问世后，LLM领域快速发展，GPT系列和多模态应用迅速崛起[3] - 技术演进从传统编程转向自然语言交互，关键论文揭示了这一转变的内在逻辑[5] 奠基性论文与技术突破 Transformer架构 - 《Attention Is All You Need》提出Transformer架构，完全摒弃循环和卷积网络，依靠自注意力机制高效处理序列数据，成为现代AI基石[8][10] - Transformer的并行计算和位置编码能力使其在机器翻译等任务中表现优异，并广泛应用于NLP和计算机视觉领域[11] GPT系列与缩放定律 - GPT-3拥有1750亿参数，通过少样本学习在翻译、问答等任务中表现优异，确立了「大模型+大数据」的缩放定律[12][13] - GPT-3开创提示工程新范式，降低AI开发门槛，引领生成式AI浪潮[13] 强化学习与人类反馈 - 《Deep Reinforcement Learning from Human Preferences》提出RLHF技术，通过人类偏好训练奖励模型，成为对齐ChatGPT等LLM的关键[14][15] - InstructGPT结合RLHF技术，即使参数更小也能更好遵循指令，催生ChatGPT并确立行业标准[16][17][18] 高效训练与推理技术计算优化 - Chinchilla论文挑战「模型越大越好」认知，提出计算最优缩放法则，模型参数与训练数据应同步增长[22][23] - LLaMA证明小模型通过更长时间训练可超越大模型，推动开源生态繁荣[27] 注意力与内存优化 - FlashAttention通过融合计算内核和优化内存使用，提升长序列处理效率，成为行业标准[29][30] - PagedAttention借鉴操作系统分页思想，提升LLM服务内存利用率，显著增加吞吐量[51][52] 多模态与开源生态 - LAION-5B提供58.5亿图文对数据集，推动多模态模型发展并降低研发门槛[56][58] - Mistral 7B通过GQA和SWA架构实现高效推理，成为开源社区标杆[55] 新兴趋势与前沿探索 - Mamba架构通过选择性状态空间实现线性时间序列建模，挑战Transformer地位[44][45] - QLoRA技术使消费级GPU可微调数十亿参数模型，推动社区创新[47][49][50] - 思想树(ToT)框架增强LLM复杂问题解决能力，推动推理技术发展[60][61] 行业影响与未来方向 - LLM能力随规模「涌现」，不可预测的新能力推动模型持续扩大[62][63] - 稀疏门控专家混合层(MoE)实现万亿参数模型训练，成为顶尖LLM核心技术[70][71][72] - 开源框架如DeepSpeed和Megatron-LM突破硬件限制，支撑超大规模模型训练[65][67][68]