Workflow
vLLM
icon
搜索文档
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 12:50
经典小游戏成为新Benchmark - o3-pro突破推箱子第六关上限并通关所有关卡 表现远超benchmark原有标准[2][8] - 俄罗斯方块测试中o3-pro得分无上限 成绩较前SOTA模型o3直接翻倍[3][14] - 测试采用迭代交互循环模式 结合智能体框架的感知/记忆/推理模块提升稳定性[18][20] Lmgame基准测试体系 - 包含6款游戏:推箱子(1989版)、俄罗斯方块、2048、糖果传奇、马里奥兄弟、逆转裁判[6][18] - 各游戏评估标准差异化:推箱子计算通关关卡数 俄罗斯方块按方块数+10倍消行数计分[7][13][24] - 测试框架开源 支持动态更新游戏关卡(如推箱子从4关扩展至50关)[9][23] 模型性能对比 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528版)[10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini 与推箱子排名存在差异[14] - o3-pro操作耗时显著 单步决策需数分钟[17] 研究团队背景 - 项目来自UCSD Hao AI Lab 负责人张昊(卡内基梅隆博士)曾参与创立LMSYS[28][29][30] - 实验室获谷歌/英伟达资助 2024年4月接收DGX B200捐赠[34] - 开源项目FastVideo获GitHub 1 5k星标 团队同时开发大模型竞技场等知名框架[32][31] 行业应用延伸 - Gemini模型2024年5月成功通关宝可梦·蓝 谷歌CEO公开宣布成果[26][27] - 测试方法受业界认可 网友认为比大模型竞技场更适合评估模型能力[5]
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 12:49
经典小游戏成为大模型Benchmark - 核心观点:经典小游戏如推箱子和俄罗斯方块被用作测试大模型性能的新基准,o3-pro模型在该基准上表现优异,突破了原有上限 [1][2][6] - o3-pro在推箱子游戏中通关所有关卡,远超之前仅能完成第六关的benchmark上限 [3][7][8] - 在俄罗斯方块中o3-pro表现持续强劲,游戏需强行终止,其得分计算方式为放置方块数量与清除行数10倍之和 [13][14] - 与前SOTA模型o3相比,o3-pro成绩直接翻倍 [3] Lmgame Benchmark框架设计 - 测试框架包含六款游戏:推箱子、俄罗斯方块、2048、糖果传奇、马里奥兄弟和逆转裁判 [18] - 采用迭代交互循环模式:游戏状态持续反馈给模型,模型生成动作后获得奖励并更新状态 [18] - 引入智能体框架辅助,包含感知、记忆、推理模块,并通过提示标准化确保评估稳定性 [20] - 各游戏评价标准差异化:马里奥兄弟按移动距离、2048按合并方块值对数、糖果传奇按消除数量、逆转裁判按正确动作计数 [24] 模型性能对比与开源生态 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528) [10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini(与推箱子排名部分倒置) [14] - 测试基准动态更新,GitHub仓库半月前仅四关,原版推箱子含50+关卡 [9] - 项目完全开源,可自行下载测试模型性能 [23] 研究团队背景 - Lmgame由UCSD Hao AI Lab开发,负责人张昊为卡内基梅隆博士、伯克利博士后,曾参与创立LMSYS(大模型竞技场开发方) [28][29][30] - 实验室获谷歌/英伟达资助,2024年4月获赠英伟达DGX B200服务器 [34] - 其他开源项目FastVideo(视频生成加速框架)获GitHub 1.5k星 [32]
对话红帽全球副总裁曹衡康:AI成本下降了 芯片的量一定会起来
每日经济新闻· 2025-06-14 17:02
AI推理技术发展现状 - 行业共识认为算力成本终将降低,但降低路径尚未统一,主要选项包括数据中心、一体机和推理服务器[1] - 红帽全球副总裁曹衡康提出2025年是AI推理元年,标志着AI应用将正式上线运行并为企业创造实际价值[1] - 当前推理技术栈存在两个主流方向,红帽选择vLLM框架作为其技术路线,该框架已成为开源领域事实标准[1] 中国在AI推理领域的参与 - 在vLLM社区中,中国贡献者占比达到35%,显示中国在推理技术领域的活跃参与[1] - 红帽高管认为中国可能成为最先实现企业价值的AI推理市场[1] 技术挑战与解决方案 - 当前面临两大技术难点:如何以最小硬件成本实现高性能推理,以及如何实现分布式推理引擎[1] - 红帽2025年推出推理服务器解决方案,主要优势在于降低企业算力成本[2] - 公司明确战略定位为纯软件提供商,不涉足硬件领域[2] 行业需求展望 - 随着AI应用成本降低,预计使用AI的企业数量将从1000家增长至1万-100万家规模[2] - 行业高管预判GPU需求量将随AI普及而显著增长[2] - 当前重点在于降低AI使用门槛以促进更广泛采用[2]
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
量子位· 2025-06-13 15:05
项目概述 - Nano-vLLM是一个开源项目,由DeepSeek研究员俞星凯开发,仅用不到1200行Python代码实现轻量级vLLM框架 [1][6][27] - 项目具有三大特点:快速离线推理(性能媲美vLLM)、可读性强的代码库、优化套件(包含前缀缓存、Torch compilation、CUDA graph等) [6] 性能对比测试 RTX 4070硬件/Qwen3-0.6B模型测试 - 在256个序列请求、输入输出长度100-1024 token随机采样的测试中: - vLLM输出133,966 tokens,耗时98.95秒,吞吐量1353.86 tokens/s [3][4] - Nano-vLLM输出相同token量,耗时101.90秒,吞吐量1314.65 tokens/s [3][4] - vLLM性能略微领先 [3] H800硬件/Qwen3-8B模型测试 - 在1024个序列请求、相同输入输出条件下: - vLLM输出583,802 tokens,耗时98.67秒,吞吐量5916.89 tokens/s [9] - Nano-vLLM输出相同token量,耗时86.73秒,吞吐量6731.42 tokens/s [9] - Nano-vLLM性能反超原框架 [9] vLLM框架背景 - 由加州大学伯克利分校Sky Computing Lab开发,现为社区驱动项目 [16] - GitHub累计获得49.5k+ Star,7.9k Fork [17][18] - 核心技术PagedAttention算法灵感源自操作系统虚拟内存分页机制,解决LLM服务系统内存碎片化问题 [19] - 采用分块存储KV缓存,通过块表动态映射逻辑块与物理块地址 [19][20][21] 技术优势 - 实现KV缓存内存近乎零浪费,支持请求内/间缓存共享 [24] - 相比FasterTransformer和Orca等系统,相同延迟下吞吐量提升2-4倍 [24] - 支持多种硬件平台(NVIDIA/AMD/Intel GPU/CPU、TPU、AWS Neuron)和功能(前缀缓存、多LoRA) [25][26] - 原版vLLM由8500行Python和2000行C++/CUDA代码构成 [26] 开发者背景 - 俞星凯2021年获南京大学计算机科学与技术系学士学位,同年免试录取为该校硕士 [11] - 现为周志华教授领导的LAMDA团队成员 [11]
1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
机器之心· 2025-06-13 12:31
开源LLM推理引擎优化 - vLLM是由加州大学伯克利分校团队开发的高性能开源LLM推理和服务引擎,旨在提升LLM的推理速度和资源利用率,兼容Hugging Face等流行模型库[2] - vLLM通过创新的PagedAttention注意力机制实现方案,使GPT、Mistral、LLaMA等主流模型系列运行更快且消耗更少资源[3] - DeepSeek AI研究者俞星凯开发了轻量级vLLM实现Nano-vLLM,代码简化至1200行,在GitHub上获得200多Star[4][5] Nano-vLLM技术特性 - Nano-vLLM具备三大核心功能:快速离线推理(速度与vLLM相当)、易读代码库(Python代码少于1200行)、优化套件(提供Prefix缓存、Torch编译等功能)[6][7][8] - 基准测试显示,Nano-vLLM与vLLM输出token相同(133,966个),时间略长(101.90秒 vs 98.95秒),吞吐量稍低(1314.65 tokens/s vs 1353.86 tokens/s)[11] - 测试配置为RTX 4070硬件、Qwen3-0.6B模型,256个序列请求,输入输出长度在100-1024 tokens间随机采样[10] 开发者背景 - Nano-vLLM开发者俞星凯现任DeepSeek深度学习系统工程师,参与过DeepSeek-V3和DeepSeek-R1开发[13] - 曾就职于腾讯、幻方(DeepSeek母公司)和字节跳动,2023年正式加入DeepSeek[14] - 此前开发过植物大战僵尸Qt版(GitHub 270+ Star)及多个南京大学计算机项目[13]
开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微
量子位· 2025-05-28 15:28
大模型开源生态全景分析 核心观点 - 大模型开发生态被描述为"现实世界的黑客松",呈现快速迭代和公开协作特征 [2][3][11] - 蚂蚁发布涵盖19个技术领域、135个项目的开源生态全景图,采用OpenRank指标筛选影响力项目(月均值>10)[5][6] - 当前生态存在三大主导赛道:模型训练框架、高效推理引擎、低代码应用开发框架 [10] 技术领域分布 - **模型训练层**:PyTorch以927 OpenRank位列所有项目第一,占据绝对统治地位 [8][14][31] - **推理服务层**:vLLM(OpenRank 615)和SGlang(269)增速显著,分别位列同比增长第一和第三 [14] - **应用框架层**:Dify(473 OpenRank)和RAGFlow(208)为代表的中国低代码平台崛起,替代传统框架LangChain [17][18] 关键数据指标 - Top 20项目数据: - PyTorch:89.6k Stars,2,143社区规模 [8] - vLLM:46.4k Stars,3,161开发者协作量 [8] - Dify:95.4k Stars,3,243社区规模(TypeScript技术栈)[8] - Ollama:139.3k Stars,创2023年6月后最快增长记录 [8] 生态演进七大趋势 1. **应用开发范式**:低代码工具(如Dify)通过可视化工作流降低门槛,取代传统Agent框架 [17][18][19] 2. **协议标准化**:MCP、A2A等协议争夺智能体通信标准主导权,头部企业通过协议层构建护城河 [22][24] 3. **技术扩散速度**:小团队3-5人可快速推出开源项目并出圈,项目周期显著缩短 [25][37] 4. **基础设施层**:向量存储技术回归理性,PyTorch持续垄断训练生态 [27][31] 5. **多模态融合**:大数据与AI生态整合尚未完成 [27] 6. **推理服务混战**:vLLM等新兴引擎挑战传统方案 [14][27] 7. **开发者策略**:从单点工具转向生态控制权,或深耕场景提升用户体验 [30][34][35] 行业影响 - 中国项目表现突出:Dify和RAGFlow在应用框架层进入全球第一梯队 [14][17] - 企业级需求驱动:安全管控和低代码成为应用框架成功关键要素 [18] - 竞争加剧:技术普及化导致开发者需通过差异化(如协议创新或体验优化)建立优势 [28][29] 研究价值 - 全景图量化分析135个项目,揭示技术扩散与生态位分布规律 [39][40] - 为开发者提供技术选型参考,特别是低代码平台和推理引擎领域 [41] - 反映底层规律:简化复杂性、提升效率始终是开发者核心价值导向 [38][43]
Agent 框架热潮褪去,大模型开发已经进入“生死局”?
AI前线· 2025-05-28 13:17
大模型开发生态全景与趋势 核心观点 - AI技术迭代呈现"AI一天,人间一年"的加速特征,大模型能力从文本生成进化到多模态交互和具身智能,但项目淘汰率极高,仅少数能持续领先[1] - 蚂蚁开源发布的《2025大模型开源开发生态全景与趋势》报告覆盖19个技术领域135个项目,揭示生态位博弈逻辑和战略投资机会[1][2][3] - 大模型开发生态呈现"真实世界黑客松"特征:项目快速崛起消亡,5079个AI工具中1232个已停止维护[9][10] 生态全景图架构 - **应用层**:包含通用助手(OpenManus/OWL)、编码助手(OpenHands/aider)、Agent开发框架(Dify/n8n)、交互客户端(Open WebUI/SillyTavern)等6类项目[6] - **基础设施层**:涵盖数据治理(Label Studio/Airflow)、训练框架(PyTorch/TensorFlow)、推理部署(Ollam)、硬件加速库(CUTLASS/FlashAttention)等[6][7] - 项目筛选标准:采用OpenRank影响力指标,要求2025年月均值>10,结合GitHub协作关联和开发者访谈确定最终名单[8] 技术领域动态变化 - **模型训练框架**:PyTorch稳居生态顶流,百度飞桨OpenRank同比降低41%(绝对值降150)[20] - **高效推理引擎**:vLLM和SGlangOpenRank增速分列第一/第三,凭借GPU推理性能优势获企业青睐[20] - **低代码开发框架**:Dify和RAGFlow因降低开发门槛实现高速增长,均源自中国开发者社区[20] 七大关键趋势 1. **AI Search衰退vs AI Coding崛起**:联网大模型替代专用搜索工具,AI编码项目掀起"氛围编程"热潮[13][14] 2. **Agent框架分化**:LangChain/LlamaIndex等全能框架式微,Dify/RAGFlow等低代码平台主导市场[23] 3. **训练框架异构化**:PyTorch主导下,训练向混合硬件架构演进提升灵活性[16] 4. **推理效率优先**:vLLM等引擎通过算法优化提升GPU利用率,降低企业部署成本[16] 5. **应用开发平民化**:低代码+RAG技术使AI应用构建效率提升80%以上[17] 6. **Vibe Coding范式**:AI编程从代码生成转向真实工程场景,但代码质量/安全性仍存挑战[24][25] 7. **微服务化演进**:未来Agent将作为独立服务被调用,或以标准配置形式本地部署[26] 典型项目生命周期分析 - 明星项目快速消亡案例:Chatbot UI(3.1万Star)存活18个月,BabyAGI(2.1万Star)存活20个月,Swarm(OpenAI项目)被Agents SDK替代[11] - 项目平均活跃周期:头部AI项目从创建到停止维护约12-24个月,远低于传统软件生命周期[11][12] - 创新价值:消亡项目如BabyAGI提出的"自我进化Agent"概念持续影响后续技术路线[12] 技术演进方向 - **训练效率**:混合异构计算架构降低对单一硬件依赖,训练速度提升3倍[16] - **推理优化**:vLLM推理速度达传统方法5倍,资源利用率提升60%[20] - **AI开发工具**:预计24个月内代码验证技术+多模态训练数据将推动AI承担30%常规开发任务[26] - **生态马太效应**:头部平台将吸纳80%企业用户,形成需求反馈-功能优化的正向循环[26]
SemiAnalysis:AMD vs NVIDIA 推理基准测试:谁赢了?--性能与每百万令牌成本分析
2025-05-25 22:09
纪要涉及的行业和公司 - **行业**:数据中心AI GPU行业 - **公司**:AMD、NVIDIA 纪要提到的核心观点和论据 性能表现 - **不同工作负载下性能差异**:对于直接拥有并运营GPU的超大规模企业和公司,某些工作负载下英伟达每美元性能更优,其他工作负载中AMD更佳;使用短期至中期租赁服务的客户,通过Neocouds平台租用显卡时,英伟达始终在每美元性能上胜出,原因是缺乏提供AMD M00X、M25X的Neocouds服务商,导致其租赁市场价格居高不下,而英伟达有数百个Neocouds提供相关显卡,租赁市场竞争激烈[6][7]。 - **各型号GPU性能对比** - **M00X**:在大多数测试场景中无法与H200竞争,但对于Lama 05B和DeepSeekv 70B,在绝对性能和每美元性能上击败H100[12]。 - **M25X**:本应是H200的竞争对手,但因发货延迟,多数客户选择B200;在部分场景如高并发下的Llama 70B和Llama 05B测试中有优势,但整体性能受发货时间影响[8][13][74][86]。 - **B200**:软件支持仍未完善,但对于当前可部署的负载和模型占据绝对优势,M25和H200性能远不及它[13]。 - **H200**:解决了H100容量短板,在多数测试中表现出色,采用TensorRT - LLM的H200性能优势明显[22][76][88]。 市场份额 - AMD在数据中心AI GPU市场份额自202年第一季度起持续增长,但2025年第一季度因英伟达推出Backwe架构产品,而AMD对标方案要到2025年第三季度面世,市场份额相应下滑,预计2025年第二季度继续下降,不过随着M55X推出和软件改进,有望在年底或明年初重新夺回部分份额[26][27]。 基准测试方法论 - **强调在线吞吐量与延迟关系**:为接近现实推理工作负载,强调分析特定配置下在线吞吐量与每位用户端到端延迟的关系,而非传统离线基准测试,通过增加并发用户数测量延迟上升,得出反映实际运营和用户体验的吞吐量指标[30][31]。 - **模型选择**:针对现实世界生产负载的密集架构和稀疏混合专家(MoE)架构模型进行测试,分别选择Lama 70B、Lama 05B和DeepSeekV 70B作为代表[45][46][47]。 - **输入/输出令牌长度**:测试三种不同输入输出令牌长度组合,分别代表摘要、翻译或对话、推理密集型任务,以全面了解模型和硬件在不同推理工作负载下的性能[49][50][51][52]。 - **推理引擎**:针对不同模型选择不同推理引擎,如Lama 70B和05B选vLLM,H200平台额外评估TensorRT - LLM;DeepSeek 70B选SGLang[54][55][59][60]。 - **并行策略**:系统性评估每种GPU架构和测试场景下所有可行的张量并行(TP)配置,测量吞吐量和延迟确定最优并行策略[61][62]。 成本分析 - **总拥有成本(TCO)**:AMD的M00X和M25X GPU通常每小时总成本低于NVDA的H100和H200 GPU,但在不同延迟和模型测试场景下,性价比表现不同[110][111]。 - **租赁成本**:在GPU租赁市场,AMD因供应有限、市场竞争不足,租赁价格被抬高,整体成本竞争力削弱,英伟达始终在每美元性能上优于AMD;为使AMD GPU在租赁市场与英伟达竞争,M00X和M25X在不同工作负载下需达到特定租赁价格[158][159][160][167][170][171]。 其他重要但可能被忽略的内容 - **生产延迟问题**:AMD的M25X发货延迟,英伟达的GB200 NVL72也因集成NVLink背板挑战和缺乏调试工具遭遇严重延误[24][25]。 - **软件支持问题**:B200和GB200软件支持不完善,如FP8 DeepSeek V在相关推理框架上无法正常运行;AMD的M55X因量产机型未上市、存在未修复缺陷未进行测试[13][172][174]。 - **基准测试阻碍**:服务框架调优参数标志多、文档不足,代码更新快,无法跨机器并行实验,AMD维护独立代码库分支和配置等问题导致基准测试耗时且困难[182][184][185][186]。 - **持续集成测试问题**:AMD的SGLang持续集成(C)测试覆盖率远不及NVDA,有数十项单元测试缺失,影响软件质量和开发者体验[188][189]。 - **模型准确性问题**:AMD在夜间准确性测试方面此前为零,25%的测试模型在AMD平台上准确性测试失败,同一模型在ROCm上运行答案不如在NVDA上智能[194][195]。
LLM Inference 和 LLM Serving 视角下的 MCP
AI前线· 2025-05-16 15:48
文章核心观点 - LLM Inference 和 LLM Serving 是 LLM 技术中两个密切相关但侧重点不同的概念,行业快速发展导致两者功能边界模糊 [1][3] - Model Context Protocol (MCP) 作为标准化协议连接 AI 模型与数据源/工具,同时涉及 LLM Inference 和 Serving 的功能范畴 [11][16] - MCP 未来可能将 LLM Inference 和 Serving 分离为 Backend Service 和 Frontend Service 以独立发展 [17] LLM Inference 和 LLM Serving 概念介绍 - LLM Inference 是计算密集型过程,依赖专用硬件(GPU/TPU),专注于模型执行和运行时状态 [4][5] - LLM Serving 面向用户端,解决模型服务的工程化问题(如扩缩容、多版本路由),典型框架包括 Kserve [7][10] - 两者并非包含关系,LLM Serving 需集成 LLM Inference 能力但功能范畴不同 [8] MCP 的技术定位 - MCP 是标准化协议,类似 USB-C 接口,连接 AI 模型与数据源/工具(如外部知识库、AI-Agent) [11][15] - MCP Server 承担类似 LLM Serving 的角色,但通过优化模型运行时行为也涉及 LLM Inference 领域 [12][16] - 当前架构难以明确归类为 Inference 或 Serving,属于两者的功能复合体 [16] MCP 的未来发展方向 - 需增强鉴权认证、负载均衡等基础设施能力,并明确划分 Inference 与 Serving 的功能边界 [17] - 可能将 LLM Inference 作为 Backend Service 专注模型优化,LLM Serving 作为 Frontend Service 聚焦用户体验 [17]
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线· 2025-04-23 15:28
大模型推理性能优化技术方向 - 当前优化围绕模型优化、推理加速与工程优化三大方向展开,包括模型量化、剪枝与蒸馏等手段降低计算复杂度,例如DeepSeek-R1-Distill-Qwen-32B采用蒸馏策略显著压缩资源开销 [1] - 依托SGLang、vLLM等高效推理引擎提升生成速度与系统吞吐能力,同时结合实际业务场景优化GPU配置与并发策略 [1] 腾讯混元AngelHCF框架实践 - 腾讯推理架构师向乾彪将分享混元大语言模型推理加速框架AngelHCF的优化实践,该框架在算子设计、通信优化和架构调整方面取得显著成本与性能优势 [1] - 专题演讲将重点解析混元Turbos Hybrid结构下的性能突破路径,展示腾讯在大模型推理加速领域的前沿实践 [2] 华为昇腾推理技术优化 - 华为高级开发工程师张君将探讨昇腾平台在计算、内存及通信瓶颈的解决方案,包括混元模型结构创新、Kernel与显存优化细节 [3] - 针对万亿参数级MoE模型提出混合切分策略、模型压缩和PD分离部署措施,通过智能调度与计算通信重叠提升推理效率 [3][4] 微软KV缓存优化技术 - 微软亚洲研究院姜慧强聚焦长文本推理挑战,围绕KV缓存生成、压缩与检索环节优化,提出动态稀疏注意力等创新方案 [5] - 将展示SCBench基准测试工具对比常规优化方法与KV缓存策略的性能差异,分析各大LLM供应商技术差异 [7] 阿里云跨层优化实践 - 阿里云技术专家李元龙提出从模型层、框架层到算子层的协同优化策略,利用昇腾硬件加速库ATB和图编译技术TorchAir实现性能跃升 [6] - 动态批处理技术与前沿融合算子设计案例展示如何最大化硬件资源效率,系统解析Transformer前向传播核心流程的优化空间 [8][9] AICon大会技术亮点 - 大会将涵盖多模态、Agent、端侧智能等前沿技术,包括跨层协同优化策略与动态计算图等突破算力瓶颈的方案 [10] - 50+行业专家将解析大模型最新进展,涉及AI原生产品落地、多模态训练及硬件终端应用场景等11个细分议题 [11]