专家混合机制 - 财报，业绩电话会，研报，新闻

专家混合机制

搜索文档

AI前线· 2025-07-04 14:10

核心观点 - AI推理服务提供商在吞吐量和延迟之间存在基本权衡，高吞吐量通常伴随高延迟，低吞吐量则伴随低延迟[1] - 批处理大小是影响吞吐量和延迟的关键因素，大批次可提高GPU效率但增加延迟，小批次则相反[2] - 专家混合模型（如DeepSeek-V3）需要更大的批次大小才能保持GPU效率，导致更高的延迟[6] - 具有多层的大型模型需要足够大的批次以避免"管道气泡"，这会显著影响吞吐量[8] - 注意力机制限制了批处理的灵活性，因为只能批量处理相同序列长度的token[9] 批处理推理机制 - GPU擅长执行大型矩阵乘法（GEMMs），批量处理多个token比逐个处理更高效[1] - 推理服务器通过将多个用户的请求堆叠成矩阵进行批量处理，显著提高GPU利用率[3] - 大批次处理减少了GPU命令开销和权重内存访问时间，这是小批次无法实现的优势[4] - 服务器设置"收集窗口"来决定批次大小，窗口时间从5毫秒到200毫秒不等[5] 专家混合模型特性 - 专家混合模型包含多个独立的前馈权重块，路由层选择子集处理每个token[6] - 这种架构导致需要执行大量小型矩阵乘法，GPU效率较低[6] - 大批次处理可确保每个专家获得足够工作量，否则吞吐量会急剧下降[12] - DeepSeek-V3作为专家混合模型，在个人使用场景效率低下，因为无法形成足够大的批次[12] 管道化与延迟问题 - 大型模型采用管道化处理，不同GPU负责不同层，需要保持连续token流[6] - "预热"和"排水"阶段导致GPU空闲，小批次会放大这种效率损失[7] - "管道气泡"发生在处理token数少于层数时，会严重影响吞吐量[8] - 消除管道气泡需要足够大的批次，这必然增加延迟[8] 注意力机制限制 - 注意力GEMMs只能批量处理相同形状的序列，限制了批处理的灵活性[9] - 解码过程中只能批量处理同一步骤的token，迫使采用短"tick"运行[9] - 不同用户的请求可以批量处理，但同一用户的token必须顺序处理[10] - 现代推理栈将注意力和FFN步骤合并成大GEMMs以提高效率[9] 行业实践观察 - OpenAI和Anthropic模型响应迅速，可能采用更高效架构或特殊优化技巧[12] - 连续批处理技术在实际中应用，但核心吞吐量-延迟权衡不变[12] - transformer模型可批量预填充长提示，这是递归模型无法实现的优势[12]

Artificial Intelligence

Artificial Intelligence

DeepSeek-V3