Workflow
推理性能优化
icon
搜索文档
一次集成,减少 80% 适配工作!从 0 到 1 开发一款 MCP Server 难不难?
AI前线· 2025-06-20 10:47
既然 MCP 在大模型应用开发中如此重要,要从 0 到 1 开发出一款 MCP Server 到底难不难? 作者 | 冬梅 硅谷的咖啡厅里,永远流传着这样的传说:一个天才开发者,一台电脑,一段颠覆行业的代码。但当 31 岁的 Maor Shlomo 在特拉维夫的公寓里敲下 Base44 的第一行代码时,他没想到这个故事会以 8000 万美元的现金收购落幕——没有风投加持,没有百人团队,只有 8 名员工和 180 天的闪电战。 AI 正在快速发展,大语言模型处于这一变革的前沿。随着这些模型在理解和生成类人文本方面日益 精进,将其与外部系统集成的需求也显著增长。这种集成有望开启一个全新的应用时代,使之能够利 用真实世界的数据和工具来增强功能,并提供更符合语境的响应。 然而,将大语言模型连接到外部资源的传统方法通常需要针对每个数据源进行复杂且定制化的实现, 从而导致架构碎片化且难以扩展。 Anthropic 的模型上下文协议 (MCP) 应运而生,成为应对这些挑战的关键解决方案。 过去,如果我们想让 AI 处理数据,通常只有两种选择:要么依赖预训练好的静态知识库,要么手动 上传数据。这种方式不仅效率低下,还存在明显 ...
推理、训练、数据全链条的工程挑战,谁在构建中国 AI 的底层能力?|AICon 北京
AI前线· 2025-06-16 15:37
在大模型快速演进的浪潮中,模型本身不再是唯一的挑战, 推理慢、训练不稳、数据难迁 等"系统性问题"正成为决定技术能否规模化落地的关键变量。 特别是对国产 AI 而言,算力适配、系统容错、数据合规等问题,更是绕不开的现实考验。 6 月 27~28 日, AICon 全球人工智能开发与应用大会·北京站 将带来聚焦系统层的七大关键议题,涵盖 国产芯片推理适配、开源部署实践、大规模训练容 错机制、AI 数据底座的云原生演进 等多个方向。既有深耕国产平台的实践派,也有活跃在开源社区的一线开发者,共同勾勒出国产 AI 基础设施建设的技术 全貌。 了解大会日程查看: https://aicon.infoq.cn/2025/beijing/schedule 以下是这七个演讲议题前瞻,一起提前了解他们将带来的分享内容: 昇腾 DeepSeek 大模型推理架构 by 王建辉 华为昇腾 / 架构师 在大模型加速部署进入深水区的今天,如何在国产算力平台上高效运行大模型,已成为影响应用落地的重要一环。本次分享将介绍昇腾 DeepSeek 大模 型推理架构,性能优化方案及关键优化措施,以及优化建议。 ✨ 关键词: 昇腾芯片推理优化 / ...
倒计时 6 天!致全球 GPU Kernel 极客:AMD 的 10 万美金“战书”请查收!
AI科技大本营· 2025-04-24 17:09
-I CSDN I- 2025.06.08 100.000美金 共赴硅谷巅峰之战! 注册报名二维码 致全球GPU kernel极客的一封战书: 亲爱的GPU kernel极客们, 是时候展现真正的实力了!我们诚挚邀请您参加由AMD发起并全程赞助的AMD 2025推理优化挑战赛!这是一个面向全球GPU kernel开发者的盛大赛事,AMD 倾力打造,邀您以代码为刃,挑战Al推理性能极限! 战,你能 斩获 什么? CSDN 智算极速争锋 AM D 2025 推理优化挑 2025.04.15 AMDA × FHE × 6 together we advance 破局时刻表 出名户站 2025 / 15 年日期期货 · 无需本地GPU! 云端算力平台,公平竞技,专注底层算子优化 ( low-level kernel ) 即可参赛! ● 单人亮剑或组队出征(≤3人),无国籍限制。 · 通过AMD官方验证后, 绑定GitHub ID解锁参赛权限。 ● 挑战优化三重DeepSeek算子:FP8 GEMM,MLA with Rope,Fused MoE。 ● 每两周一组,开放PyTorch参考实现及理论最大值性能等辅助开发的 ...
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线· 2025-04-23 15:28
在人工智能快速演进的浪潮下,大模型正加速重构各行业的技术底座,而 推理性能优化 正成为应对 算力挑战、内存瓶颈与通信压力的关键突破口。 当前,大模型推理性能优化主要围绕 模型优化、推理加速与工程优化 三大方向展开:通过模型量 化、剪枝与蒸馏等手段降低计算复杂度、提升推理效率,例如 DeepSeek-R1-Distill-Qwen-32B 采用 蒸馏策略,在保持高性能的同时显著压缩资源开销;依托 SGLang、vLLM 等高效推理引擎提升生成 速度与系统吞吐能力;同时结合实际业务场景,合理规划并发策略、优化 GPU 配置,打造具备高可 用性与扩展性的推理服务体系。 在即将于 5 月 23 日 -24 日举办的 AICon 全球人工智能开发与应用大会·上海站 中,我们特别策划了 《大模型推理性能优化策略》专题论坛,由阿里云公共云大模型技术服务负责人 王德山 担任专题出 品人,现已确认多位业内实践者参与分享。以下为嘉宾阵容及即将带来的精彩议题简介~ 向乾彪 – 腾讯推理架构师 姜慧强专注于高效推理和训练方法的探索。在多项国际顶级会议上发表过高水平论文,他的研究领域 涵盖动态稀疏注意力、KV 缓存优化、提示压缩等前沿 ...
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线· 2025-04-23 15:28
在人工智能快速演进的浪潮下,大模型正加速重构各行业的技术底座,而 推理性能优化 正成为应对算力挑战、内存瓶颈与通信压力的关键突破口。 当前,大模型推理性能优化主要围绕 模型优化、推理加速与工程优化 在即将于 5 月 23 日 -24 日举办的 AICon 全球人工智能开发与应用大会·上海站 中,我们特别策划了《大模型推理性能优化策略》专题论坛,由阿里云公共云大模型技术服务负责人 王德山 担任专题出品人,现已确认多位业内实践者参与分享。以下为嘉宾阵容及即将带来的精彩议题简介~ 向乾彪 – 腾讯推理架构师 向乾彪在 GPU 推理加速拥有丰富经验。他的技术专长覆盖高性能异构计算及深度性能优化,并在实 践中不断突破前沿技术瓶颈。目前,向乾彪带领团队负责混元大语言模型的推理加速框架 【AngelHCF】 三大方向展开:通过模型量化、剪枝与蒸馏等手段降低计算复杂度、提升推理效率,例如 DeepSeek-R1-Distill-Qwen-32B 采用蒸馏策略,在保持高性能的同时显著压缩资源开销;依托 SGLang、vLLM 等高效推理引擎提升生成速度与系统吞吐能力;同时结合实际业务场景,合理规划 并发策略、优化 GPU 配置 ...