语言模型面试手册

报告行业投资评级 * 该报告是一本面向大语言模型和生成式AI工程师的面试手册，其核心目的是提供技术指导和职业准备，而非对特定行业或公司进行投资评级，因此报告中未包含行业投资评级相关内容 [1][2][3] 报告的核心观点 * 报告的核心观点是，成功的大语言模型和生成式AI系统并非单一模型，而是一个由多个工程化层构成的完整系统，包括从文本表示、模型机制到检索、适配、评估、部署和治理的全栈能力 [4][5][7] * 报告强调，在面试和实际工作中，工程师应展示从第一性原理出发进行推理、选择合适工具、阐明故障模式并清晰论证权衡取舍的能力，而非仅仅复述术语 [7] * 报告认为，有效的学习和职业发展应遵循分层路线图：从文本和模型机制等基础开始，然后学习如何通过检索提升上下文质量，再学习如何通过适配和服务使系统达到生产就绪状态 [20][21][22] * 报告指出，当前行业趋势正朝着更长的上下文窗口、多模态系统、更小更专业的模型、评估与治理、推理优化以及工具使用与智能体等方向发展，这些趋势影响着工程路线图和面试期望 [24][26] 根据相关目录分别进行总结第一章：LLM导论、基础与职业路线图 * 本章旨在为读者提供学习地图，从系统工程层面定义大语言模型，展示现代LLM技术栈如何协同工作，概述实用的学习路线图，并总结影响生成式AI职位招聘的趋势 [13] * 大语言模型本质上是在大规模数据上训练以预测序列中下一个标记的神经网络，其价值在于能够嵌入到进行分类、检索、总结、工具推理和生成结构化输出的工作流中 [18] * 报告提出了一个六层学习路线图：1) 文本、标记和上下文；2) 嵌入和注意力；3) 预训练和模型家族；4) 检索、RAG和提示工程；5) 适配、PEFT和评估；6) 服务、治理和产品化 [25] * 报告总结了影响工程路线图和面试期望的六大趋势：更长的上下文窗口、多模态系统、更小更专业的模型、评估与治理、推理优化、工具使用与智能体 [26] 第二章：标记、标记化与上下文窗口 * 标记是LLM实际读取和预测的基本计算单元，通常不等于完整的单词，而是子词、标点或字符片段，标记数量直接控制成本、延迟、截断风险以及能放入提示的上下文量 [37][39][44] * 上下文窗口是模型在一次前向传播中能关注的最大标记数，包括所有输入和输出，如果超出限制，必须进行截断、滑动窗口或总结处理 [54][55] * 标记化策略（如字节对编码、SentencePiece）影响模型处理稀有词、多语言文本和领域特定术语的能力，进而影响成本、延迟和系统设计 [36][47][50][52] * 工程师在生产系统中需要为系统指令、输出长度和关键检索内容预留标记预算，并监控溢出事件，将标记预算视为可靠性控制措施而非事后考虑 [64][65] 第三章：嵌入与语义表示 * 嵌入是将离散文本转换为密集向量的技术，使语义相似的项在向量空间中彼此靠近，是语义搜索、聚类和检索增强生成系统的核心 [68][74] * 嵌入通过将语义关系压缩到向量空间，使得检索、聚类和推荐系统能够超越精确的关键词匹配，实现基于含义的规模化比较 [70][76] * 存在不同类型的嵌入（如标记嵌入、句子嵌入、文档嵌入），应根据任务选择，检索和聚类通常需要经过专门训练以保留语义相似性的句子或块级嵌入 [78][79] * 嵌入的评估应基于其将要支持的实际任务，例如对于检索任务，应衡量召回率、平均倒数排名等指标，并将离线向量相似度与端到端答案质量联系起来 [92][93] 第四章：Transformer架构、注意力与位置推理 * Transformer是现代化大语言模型的架构基础，其核心是用注意力机制取代循环，实现了序列建模的并行化训练，并更好地建模长程依赖关系 [94][101] * 自注意力机制允许序列中的每个标记动态地权衡其他标记的重要性，从而构建上下文感知的表示，这对于消歧和长距离依赖至关重要 [96][103] * 多头注意力允许模型并行学习多种类型的关系（如局部语法、实体指代），增加了表示的丰富性；位置编码或嵌入则为模型注入序列顺序信息，因为注意力本身是排列不变的 [107][109] * Transformer虽然因其并行性而扩展性良好，但标准自注意力的计算和内存成本随序列长度增长很快，这使得长上下文服务在延迟、吞吐量和内存压力方面成本高昂 [114][115] 第五章：预训练目标、模型家族与经典对比 * 预训练目标（如自回归的下一个标记预测、掩码语言建模）从根本上塑造了模型的能力倾向，自回归模型擅长生成和续写，掩码模型则擅长理解任务和表示学习 [120][128] * 模型家族可根据架构和目标区分：编码器-解码器模型（如T5）适合序列到序列任务；仅解码器模型（如GPT）擅长生成；仅编码器模型（如BERT）擅长理解；基础模型则经过广泛预训练，可适配多种下游任务 [110][125][140] * 现代大语言模型通过子词标记化处理词汇表外单词，将其分解为已知片段，避免了传统基于固定词典的硬性OOV问题 [134][135] * 大语言模型与传统统计语言模型（如n-gram）的关键区别在于，前者是学习分布式表示和长上下文的深度表示学习器，而后者主要基于局部标记计数的查找和平滑 [144][145] 第六章：使用大语言模型进行分类 * 大语言模型可以通过提示将输入映射到预定义标签集来执行分类任务，这在新标签频繁变化或标注数据有限时尤其有用 [146][154] * 选择提示还是微调取决于多个因素：提示适用于标签不稳定、需要快速迭代或解释性重要的场景；微调则适用于标签稳定、数据量大、延迟要求高且需要强一致性的生产场景 [156][157] * 零样本分类仅提供标签定义，而少样本分类还提供少量示例，后者能帮助模型更可靠地推断边界、边缘情况和格式期望 [158][159] * 评估分类系统时，除了准确率，更应关注与业务风险对齐的指标，如精确率、召回率、F1分数以及校准情况，在类别不平衡时，宏观F1或每类召回率可能更为重要 [166][167] 第七章：规模化主题建模、聚类与主题发现 * 主题发现与分类不同，它是无监督的探索性过程，旨在从数据本身揭示潜在主题结构，通常作为构建正式分类法之前的步骤 [174][181] * 基于嵌入的聚类方法之所以流行，是因为它能在向量空间中对概念相似的文本进行语义分组，即使它们不共享精确的关键词，然后可以利用LLM对发现的聚类进行总结或命名 [183][184] * 一个实用的规模化主题发现流程包括：文本清洗、嵌入、降维（可选）、聚类、提取代表性样本，最后使用LLM或人工审阅者为聚类命名，其中命名和验证是关键步骤 [185][191] * 主题发现应被视为迭代式的意义构建过程，其评估应结合统计连贯性和对业务决策的实际有用性，自动生成的标签在底层聚类混乱时也可能听起来很清晰，因此必须对照原始样本进行验证 [195][197] 第八章：大语言模型系统的检索基础 * 检索是连接静态模型知识与新鲜、领域特定信息的核心桥梁，检索增强生成通过结合参数化记忆（模型权重）和非参数化记忆（索引、文档）来提升事实依据和可控性 [200][212] * 检索方法主要分为词法检索（基于精确术语匹配）和密集检索（基于嵌入语义相似度），混合检索结合了两者，以减少单一方法的盲点，提升第一阶段召回率 [214][216][217] * 分块决定了检索的粒度，分块过大可能导致噪声过多，过小则可能丢失理解所需的上下文，好的分块策略需要与源材料的结构对齐 [218][219] * 检索质量不仅取决于嵌入模型，还受到分块策略、元数据过滤、查询重写和重排序的显著影响，生产系统通常依赖近似最近邻搜索以在可接受的召回率损失下实现更好的速度和可扩展性 [221][224][227] 第九章：生产级RAG架构与有依据的回答 * 生产级RAG系统远不止于简单的检索-生成，它需要管理权限、新鲜度、引用质量、缓存、评估、故障处理和升级规则，目标是生成有依据、可追溯且安全可靠的答案 [232][240] * 减少RAG系统中的幻觉最有效的方法是改善检索召回率、进行积极的重排序、将答案约束在引用的证据范围内、在证据不足时要求系统弃答，并将无依据的生成与有依据的生成分开 [244][245] * 引用和溯源对于有依据的系统至关重要，它们使答案可被审查，增加了信任度，简化了调试，并使人工审阅更高效 [246][247] * 评估生产RAG系统需要离线和在线结合：离线评估检查检索相关性、依据性、引用正确性；在线评估则关注真实用户满意度、任务完成度等，因为离线表现好的系统在真实流量中可能表现不佳 [255][256] 第十章：提示工程、上下文学习与LLM编排 * 提示工程本质上是为概率系统设计控制界面，好的提示通过构建任务、减少歧义、约束输出来设置模型，使其能有效利用上下文，应被视为系统配置而非孤立技巧 [259][262] * 在聊天系统中，系统消息设定行为准则和输出期望，用户消息包含任务请求，工具消息提供外部证据或计算结果，清晰的分离有助于调试和安全 [266][267] * 少样本提示在模型需要学习从指令中不明显的局部约定（如格式规则、细微标签边界）时特别有帮助，关键在于示例的相关性而非数量 [270][271] * 当任务需要领域适应、低延迟、严格一致性或基座模型反复无法从指令中学习到所需行为时，提示工程可能不再足够，此时需要考虑更好的检索、更强的约束、微调或专用模型等更强干预措施 [283][284] 第十一章：多模态大语言模型 * 多模态LLM是能够处理和推理多种输入或输出模态（如文本+图像）的系统，其核心挑战不仅在于编码每种模态，更在于对齐它们的表示，使系统能够将语言基于非文本证据 [285][292] * 常见的文本-图像系统架构模式是：视觉编码器将图像转换为嵌入，投影器将其映射到语言模型可消费的空间，然后LLM基于文本标记和图像衍生表示生成响应 [294][295] * 视觉接地是指模型的语言输出实际与图像证据绑定，而非仅从语言先验生成，这是多模态AI中的核心信任问题，流畅但无依据的回答会产生极具迷惑性的错误 [298] * 评估多模态系统应衡量有依据的正确性，而不仅仅是流畅性，通常需要特定任务的数据集和人工审查，因为许多故障很微妙，无法通过字符串匹配检测 [302][303] 第十二章：自定义嵌入与检索优化 * 当通用嵌入模型无法充分捕捉领域特定的细微区别时（如法律、医学、企业内部术语），才应考虑使用自定义嵌入，其合理性应基于可衡量的相关性差距评估 [310][316] * 检索优化应遵循一个实用的阶梯：首先尝试数据清洗、分块改进；然后是添加重排序或元数据过滤；接着是查询重写或混合搜索；最后才是训练自定义嵌入模型，每一步都应进行测量和验证 [313][314] * 领域适配嵌入的常见方法包括：在领域文本上继续预训练、基于标注查询-文档对的监督对比训练、困难负样本挖掘等，选择取决于可用监督数据的数量和质量 [318][319] * 困难负样本（与查询看似相似但不相关的项）对于训练检索嵌入至关重要，它们迫使模型学习细粒度的区分，而不是依赖表面线索，从而提升实际检索场景中的精确度 [320][321]