软件3.0与AI范式变革 - Andrej Karpathy提出「软件3.0」概念,自然语言成为新编程接口,AI模型直接执行任务,标志着计算范式的根本转变[1][2] - 自2017年Transformer架构问世后,LLM领域快速发展,GPT系列和多模态应用迅速崛起[3] - 技术演进从传统编程转向自然语言交互,关键论文揭示了这一转变的内在逻辑[5] 奠基性论文与技术突破 Transformer架构 - 《Attention Is All You Need》提出Transformer架构,完全摒弃循环和卷积网络,依靠自注意力机制高效处理序列数据,成为现代AI基石[8][10] - Transformer的并行计算和位置编码能力使其在机器翻译等任务中表现优异,并广泛应用于NLP和计算机视觉领域[11] GPT系列与缩放定律 - GPT-3拥有1750亿参数,通过少样本学习在翻译、问答等任务中表现优异,确立了「大模型+大数据」的缩放定律[12][13] - GPT-3开创提示工程新范式,降低AI开发门槛,引领生成式AI浪潮[13] 强化学习与人类反馈 - 《Deep Reinforcement Learning from Human Preferences》提出RLHF技术,通过人类偏好训练奖励模型,成为对齐ChatGPT等LLM的关键[14][15] - InstructGPT结合RLHF技术,即使参数更小也能更好遵循指令,催生ChatGPT并确立行业标准[16][17][18] 高效训练与推理技术 计算优化 - Chinchilla论文挑战「模型越大越好」认知,提出计算最优缩放法则,模型参数与训练数据应同步增长[22][23] - LLaMA证明小模型通过更长时间训练可超越大模型,推动开源生态繁荣[27] 注意力与内存优化 - FlashAttention通过融合计算内核和优化内存使用,提升长序列处理效率,成为行业标准[29][30] - PagedAttention借鉴操作系统分页思想,提升LLM服务内存利用率,显著增加吞吐量[51][52] 多模态与开源生态 - LAION-5B提供58.5亿图文对数据集,推动多模态模型发展并降低研发门槛[56][58] - Mistral 7B通过GQA和SWA架构实现高效推理,成为开源社区标杆[55] 新兴趋势与前沿探索 - Mamba架构通过选择性状态空间实现线性时间序列建模,挑战Transformer地位[44][45] - QLoRA技术使消费级GPU可微调数十亿参数模型,推动社区创新[47][49][50] - 思想树(ToT)框架增强LLM复杂问题解决能力,推动推理技术发展[60][61] 行业影响与未来方向 - LLM能力随规模「涌现」,不可预测的新能力推动模型持续扩大[62][63] - 稀疏门控专家混合层(MoE)实现万亿参数模型训练,成为顶尖LLM核心技术[70][71][72] - 开源框架如DeepSpeed和Megatron-LM突破硬件限制,支撑超大规模模型训练[65][67][68]
盘一盘,2017年Transformer之后,LLM领域的重要论文
机器之心·2025-06-29 12:23