LLM Inference 和 LLM Serving 视角下的 MCP

文章核心观点 - LLM Inference 和 LLM Serving 是 LLM 技术中两个密切相关但侧重点不同的概念，行业快速发展导致两者功能边界模糊 [1][3] - Model Context Protocol (MCP) 作为标准化协议连接 AI 模型与数据源/工具，同时涉及 LLM Inference 和 Serving 的功能范畴 [11][16] - MCP 未来可能将 LLM Inference 和 Serving 分离为 Backend Service 和 Frontend Service 以独立发展 [17] LLM Inference 和 LLM Serving 概念介绍 - LLM Inference 是计算密集型过程，依赖专用硬件（GPU/TPU），专注于模型执行和运行时状态 [4][5] - LLM Serving 面向用户端，解决模型服务的工程化问题（如扩缩容、多版本路由），典型框架包括 Kserve [7][10] - 两者并非包含关系，LLM Serving 需集成 LLM Inference 能力但功能范畴不同 [8] MCP 的技术定位 - MCP 是标准化协议，类似 USB-C 接口，连接 AI 模型与数据源/工具（如外部知识库、AI-Agent） [11][15] - MCP Server 承担类似 LLM Serving 的角色，但通过优化模型运行时行为也涉及 LLM Inference 领域 [12][16] - 当前架构难以明确归类为 Inference 或 Serving，属于两者的功能复合体 [16] MCP 的未来发展方向 - 需增强鉴权认证、负载均衡等基础设施能力，并明确划分 Inference 与 Serving 的功能边界 [17] - 可能将 LLM Inference 作为 Backend Service 专注模型优化，LLM Serving 作为 Frontend Service 聚焦用户体验 [17]