Workflow
重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
机器之心·2025-04-28 09:26

大规模语言模型技术发展 - 大语言模型(LLM)正以前所未有的速度推动科技进步和产业变革,重塑人机交互方式并成为学术研究与产业创新的关键技术[3] - 2023年9月复旦大学团队发布《大规模语言模型:从理论到实践》,两年内该领域在理论研究、预训练方法、后训练技术等方面取得重要进展[6] - 大语言模型展现出惊人泛化性(仅需60条数据即可学习)但存在脆弱性(130亿参数模型中修改1个参数可能导致功能崩溃)[6] 书籍核心升级内容 - 新增40%前沿内容,深度剖析MoE、强化学习、多模态、智能体、RAG、效率优化等技术趋势[8][10] - 知识体系重构后覆盖预训练、微调、强化学习、应用开发、效率优化全流程[9] - 新增多模态大语言模型、智能体、RAG、大模型效率优化等实用章节,指令微调和强化学习部分大幅修改[11] 技术体系架构 - 理论基础部分涵盖Transformer结构、LLaMA模型实例及混合专家模型(MoE)[15] - 预训练部分详解数据分布/预处理方法及DeepSpeed框架下的分布式训练技术[15] - 指令理解部分包含LoRA等高效微调方法,强化学习章节涉及PPO/RLHF算法及DeepSeek-R1等案例[15] - 能力增强部分探讨多模态架构设计、LangChain智能体实现及RAG系统协作机制[15] - 应用部署部分包含vLLM等推理框架优化技术和本地化部署实践方法[16][21] 作者团队背景 - 复旦大学NLP团队由张奇(发表200+论文)、桂韬(NeurIPS 2023最佳论文)、郑锐(NeurIPS 2024最佳论文)、黄萱菁(8项论文奖)等学者组成[24][25] - 团队在ACL/ICML/NeurIPS等顶会持续产出,研究方向覆盖预训练模型、智能体交互、多模态学习等前沿领域[25] 行业专家评价 - 中国工程院院士蒋昌俊认为该书"恰逢其时",是学术界和产业界探索LLM的必备读物[28] - 上海人工智能实验室主任周伯文指出该书系统覆盖预训练、多模态、智能体等前沿领域,具有重要参考价值[28] - 专家共识认为第二版新增内容(如RAG、智能体章节)显著提升了理论深度与实践指导性[27][28]