vLLM
搜索文档
深度拆解,硬核解构,揭开vLLM推理系统实现高效吞吐的秘籍
机器之心· 2025-10-26 12:03
文章核心观点 - vLLM是一套针对大语言模型推理优化的高性能开源推理框架,通过创新的显存管理、并行调度和KV缓存技术,在保持模型准确性的同时大幅提升吞吐量与响应速度[1] - 该博客文章对vLLM的架构、代码和原理进行了深入分析,涵盖了从基础推理流程到高级功能、扩展能力和分布式系统部署的完整技术栈[3][4][6] - 文章采用倒金字塔结构写作方式,从宏观层面入手逐步深入细节,帮助读者建立对整个系统的清晰整体认知而不被繁琐技术细节淹没[6] LLM引擎核心架构 - LLM引擎是vLLM的核心构建模块,单独使用时能够实现高吞吐量推理但仅限于离线场景[7][8] - 引擎构造函数包含多个子组件:vLLM配置、处理器、引擎核心客户端、输出处理器、模型执行器、结构化输出管理器和调度器[14][15] - 调度器内部包含策略设置、等待队列与运行队列以及KV缓存管理器,其中KV缓存管理器维护一个可用KV缓存块的池子,数量可达几十万甚至更多[16] - 模型执行器在构造过程中会创建Worker对象并执行三个关键步骤:初始化设备、加载模型和初始化KV缓存[19][20][21] 推理流程与调度机制 - Generate函数处理每个提示词时创建唯一请求ID并记录到达时间,通过输入预处理器进行分词后打包成EngineCoreRequest传递到引擎核心[24][25][29] - 每个推理步骤包含三个阶段:调度阶段选择本步骤要执行的请求,前向传播阶段运行模型并采样新token,后处理阶段进行去分词和停止条件检查[32][33][34][35] - 推理引擎主要处理两类工作负载:Prefill请求对所有提示token执行一次前向传播通常是计算受限的,Decode请求仅对最新生成的一个token执行前向传播是内存带宽受限的[38] - V1调度器可以在同一个step中混合处理prefill与decode请求,优先处理decode请求,调度器会计算需要生成的新token数并调用KV-cache管理器的allocate_slots函数[39][40][41][42] 高级功能特性 - 分块预填充将预填充步骤拆分为更小块执行,避免长提示词请求独占计算资源,通过设置long_prefill_token_threshold正整数启用[57] - 前缀缓存避免重复计算多个提示词开头部分共享的token,当提示词长度超过一个KV-cache块(默认16个token)时可显著加快预填充请求速度[62][70][73] - 引导式解码在每一步解码时通过基于语法的有限状态机对logits进行约束,确保只有符合语法规则的token被采样,支持正规文法和上下文无关文法[93][94][97] - 推测解码通过引入较小草稿模型快速生成k个候选token,然后使用大模型进行验证,在统计上等价于标准自回归解码但潜在更快[106][107][112] 系统扩展与分布式部署 - 从UniProcExecutor扩展到MultiProcExecutor支持多GPU进程,通过张量并行将模型分片到同一节点多张GPU上,节点内带宽显著高于节点间带宽[141][143][149] - 分布式系统部署示例使用两台8×H100节点,一台以headless模式运行引擎,另一台作为API服务器,通过数据并行在多个节点上复制模型[153][156] - API服务节点实例化AsyncLLM对象创建DPLBAsyncMPClient,通过FastAPI应用暴露OpenAI兼容接口,整个堆栈通过Uvicorn对外提供服务[172][175] - 完整请求生命周期从终端发送请求到API服务器,经过负载均衡选择引擎,执行推理步骤后将结果返回,复杂分布式系统对用户透明[177][183] 性能测量与基准测试 - 推理系统性能有两个互相制约的指标:延迟从请求提交到返回token的时间对交互式应用重要,吞吐量系统每秒能够生成或处理的token/请求数量对离线工作负载关键[185][186][189] - 常见推理性能指标包括TTFT从请求提交到接收第一个输出token的时间,ITL两个连续token之间的时间,TPOT请求中所有输出token的平均ITL,以及端到端延迟[190] - vLLM提供CLI工具vllm bench {serve,latency,throughput}进行基准测试,latency脚本使用短输入并生成128个输出token,throughput脚本一次性提交固定prompt集测量吞吐量[196][197] - 延迟和吞吐量存在竞争关系,当批大小B较小时每个token的间隔延迟下降,当B增大时间隔延迟上升但吞吐量提高直到达到峰值性能[192][193]
迈向超级人工智能之路
36氪· 2025-09-29 17:33
AI发展趋势与产业应用 - AI将超越通用人工智能(AGI) 迈向能够自我迭代进化的超级人工智能(ASI) [1] - 79%的受访公司已在业务中应用AI Agent 其中66%实现生产力提升 57%实现成本下降 55%决策效率加快 54%客户体验提升 [1] - 科技巨头全面布局Agent领域 包括OpenAI的Agent Mode 微软的Copilot 谷歌的Jules Agent 字节跳动的Coze 百度的全平台智能Agent [2] 阿里云战略定位与基础设施 - 阿里云升级为"全栈人工智能服务商" 提出大模型是新的操作系统 超级AI云是新的计算机 [3] - 基础设施具备四大特点:大规模弹性 高可用与稳定性 长短期记忆与检索 推理优化与加速 [7][8][9] - ACS GPU serverless架构实现秒级拉起百亿参数模型 推理服务PAI-EAS提升吞吐率超过70% [7][8] - 对象存储OSS支持千亿级数据量 云原生数据库PolarDB提供金融级支撑 [7] 通义大模型技术体系 - 通义千问系列在中文理解 工具调用 多模态任务上具全球竞争力 [5] - Qwen模型在MMLU CMMLU AGIEval等基准测试多次超过GPT-4-turbo和Claude 3 Sonnet [5] - 发布6个模型升级 包括万亿参数Qwen3-MAX 全模态模型Qwen3-Omni 视觉模型Qwen3-VL 图像模型Qwen-Image 代码模型Qwen3-Coder 视频模型Wan2.5-Preview 语音模型通义百聆 [6] 百炼Agent开发平台 - 采用"1+2+7"企业级Agent体系:一套模型服务 两种开发模式 七大关键能力 [13] - 双轨开发模式:低代码ADP快速验证原型 高代码ADK支持深度定制 [14] - 七大关键能力覆盖记忆管理 工具连接 安全沙箱 日志追踪 动态推理 支付交易 数据管理 [15] - 平台已支撑20万开发者构建80万个Agent 模型调用量同比增长超15倍 [16] 企业应用案例与成效 - 网商银行风控流程实现95%准确率 处理时间从3小时缩短至5分钟 流转效率提升50%-300% [15] - 鱼泡网通过数据处理Agent提升人岗匹配效率80% [15] - 听力熊学习机衍生50多种交互技能 覆盖百万用户 日均交互量居行业首位 [15] 行业竞争与市场地位 - 阿里云连续多年国内云计算+AI市场份额第一 2025年上半年商业体量超第二至第四名总和 [18] - 十万级企业客户在阿里云运行业务 成为国内最被验证的AI+云平台 [18] - 全栈能力使中国企业不必依赖海外方案 即可完成研发到应用闭环 [21]
从模型到生态:2025 全球机器学习技术大会「开源模型与框架」专题前瞻
AI科技大本营· 2025-09-26 13:49
开源与闭源AI模型性能趋势 - 2025年开源与闭源模型的性能差距已从常见的8%缩小至1.7% [1] 2025全球机器学习技术大会专题设置 - 大会特设“开源模型与框架”专题,聚焦底层构件的开源创作与实践 [1] - AI竞争已扩展至数据、模型、系统和评测四大支柱 [12] - 大会设置十二大前沿专题,覆盖大模型技术演进与智能体工程实践 [13] 参会机构与行业参与度 - 参会机构包括北大、清华、百度、阿里、腾讯、字节跳动等国内顶尖机构 [12][13] - 来自Meta、谷歌、阿里等公司的生态竞争围绕未来“AI操作系统”展开 [12] 重点开源项目与技术方向 - MNN-LLM项目专注于移动端大语言模型推理框架 [7][23] - vLLM项目致力于提供人人可用、快速且低成本的大模型推理服务 [7][23] - verl项目是灵活高效的大模型强化学习编程框架 [10][23] - SpecForge是用于训练投机采样模型的工具 [23] 大会核心演讲嘉宾与议题 - Lukasz Kaiser将分享推理模型的历史、现在与未来 [17] - 议题涵盖可验证奖励强化学习、腾讯混元翻译模型优化、MiniCPM端侧大模型等 [17][18] - 智能体相关议题包括AReaL异步强化学习、扣子罗盘效果评测、通义DeepResearch构建方法论等 [18]
最受欢迎的开源大模型推理框架 vLLM、SGLang 是如何炼成的?
AI科技大本营· 2025-09-24 10:01
文章核心观点 - 大语言模型推理阶段是决定模型实用性和广泛采用的关键 需要高效处理延迟、吞吐量和成本约束[2][3] - vLLM和SGLang作为领先的开源推理引擎项目 通过创新内存管理技术和优化调度设计显著提升推理性能[4][8][12] - 两个项目均起源于学术研究 现已发展为社区驱动的开源标杆 获得业界广泛采用和投资机构支持[7][16][31][34] 项目技术特性 - vLLM采用PagedAttention算法 借鉴操作系统分页缓存管理技术 实现精细化内存管理 官方测试显示比Hugging Face Transformers后端提升30倍吞吐量[8][9] - SGLang以RadixAttention为核心 重用过往请求的KVCache 在前缀匹配时大幅减少Prefill阶段计算量 即使关闭RadixAttention仍保持优秀性能[12] - 两者均支持Continuous Batching、Chunked Prefill、Speculative Decoding等先进特性 在功能算法层面日趋同质化[29] 社区发展数据 - vLLM于2023年6月开源 截至2025年8月获56,045星标 9,578分叉 1,465贡献者 12,393名社区参与者[15] - SGLang于2024年1月发布 同期获17,095星标 2,697分叉 638贡献者 2,754名社区参与者 规模不及vLLM五分之一[13][15] - 两项目中国开发者占比显著 vLLM达33% SGLang高达52% 社区活跃度高但待处理issue均超2000条[9][13][37] 学术与产业关联 - 项目核心发起人Woosuk Kwon(vLLM)和Lianmin Zheng(SGLang)均来自加州大学伯克利分校 师从Spark和Ray创建者Ion Stoica[16] - vLLM贡献主力来自Red Hat SGLang贡献主力来自xAI、Skywork、Oracle和LinkedIn 194名开发者在两项目间交叉贡献[18][19][20] - OpenAI工程师comaniac在vLLM提交77个代码请求 在SGLang提交17个请求 2024年3月后活跃度降低引发行业猜测[20] 性能演进历程 - vLLM在2024年9月发布v0.6.0 通过CPU调度优化实现2.7倍性能提升和5倍延迟下降 但架构复杂性导致增长放缓[23][25] - 2025年1月vLLM推出V1重构版本 结合DeepSeek V3/R1发布 与SGLang同步进入第二轮爆发式增长[21][25] - 性能竞争白热化后 双方转向强调可复现方法和真实工作负载端到端指标 鼓励第三方独立评测[26] 生态合作与投资 - a16z的Open Source AI Grant基金在2023年8月资助vLLM核心开发者 2024年6月第三批名单资助SGLang开发者[31][33] - 真格基金2024年7月向vLLM提供捐赠 Linux基金会将vLLM纳入PyTorch基金会 2025年3月SGLang加入PyTorch生态系统[40] - 两项目已成为Google、Meta、Microsoft、字节跳动、阿里巴巴、腾讯等顶尖科技公司首选推理方案[34]
LLM开源2.0大洗牌:60个出局,39个上桌,AI Coding疯魔,TensorFlow已死
36氪· 2025-09-17 16:57
大模型开源生态全景图2.0核心更新 - 全景图收录114个项目(较1.0版减少21个),覆盖22个领域,其中39个为新晋项目,60个项目被淘汰 [4] - 生态中位年龄仅30个月,平均寿命不足三年,62%项目诞生于2022年10月"GPT时刻"之后 [5] - 分类框架从Infrastructure/Application进化为AI Agent/AI Infra/AI Data三大板块,反映行业向智能体为中心演进 [10] 项目生态动态 - 头部前十项目覆盖模型生态全链路,平均Star数接近3万,远超历史同期开源项目 [5] - TensorFlow因迭代迟缓被淘汰,PyTorch以92,039 Stars成为训练平台绝对主导 [4][6] - 新晋高热度项目包括Gemini(AI Coding)、TensorRT-LLM(推理引擎)、Cherry Studio(聊天机器人) [6][28] 开发者地域分布 - 全球366,521位开发者中,美国占37.41%、中国占18.72%,两国合计贡献超55% [10][12] - 美国在AI Infra领域贡献度达43.39%(中国22.03%),在AI Data领域贡献度35.76%(中国10.77%) [14] - 中国在AI Agent领域表现接近美国(中国21.5% vs 美国24.62%),与应用层投入密切相关 [14] AI Agent领域演进 - AI Coding完成从"补代码"到"全生命周期智能引擎"跨越,支持多模态与团队协同 [23] - 大厂通过开源工具链(如Gemini CLI、Codex CLI)绑定开发者生态,战略类似Windows+.NET模式 [27] - Agent Workflow Platform向企业级能力演进,Dify提供从原型到生产的一站式平台 [34] - Browser-use项目9个月内获60K Stars,实现Agent网页操作能力 [37] AI Infra技术趋势 - Model Serving赛道持续高热,vLLM(53,912 Stars)和NVIDIA TensorRT-LLM主导云端推理 [6][45] - 本地化推理框架崛起,ollama使大模型可运行于个人设备,GPUStack等新框架补位 [49] - LLMOps接棒MLOps,聚焦监控、提示词评测与安全可信,Phoenix、Langfuse等项目覆盖全生命周期管理 [52] - 模型训练赛道热度回落,社区更关注低成本微调方案(如Unsloth集成QLoRA) [55] 许可证模式变革 - 新晋项目多采用限制性许可证(如BSL变体、Fair-code),传统MIT/Apache 2.0协议使用减少 [62] - 部分项目按用户规模设限(如月活超阈值需额外授权),反映商业博弈加剧 [62] - Cursor、Claude-Code等闭源项目仍在GitHub获高热度,挑战"开源社区"定义 [63] 大模型技术前沿 - MoE架构普及使模型参数达万亿级别(如K2、Claude Opus),通过稀疏激活控制推理算力 [69] - Reasoning成为模型新标配,DeepSeek R1通过强化学习增强复杂决策能力 [70] - 多模态全面爆发,语言/图像/语音成为标配,中国厂商在开源与闭源路线均取得领先 [71] - 模型评价体系多元化,OpenRouter等平台通过调用数据形成"数据投票"排行榜 [72]
LLM开源2.0大洗牌:60个出局,39个上桌,AI Coding疯魔,TensorFlow已死
机器之心· 2025-09-17 12:00
大模型开源开发生态全景图2.0核心变化 - 全景图收录114个项目 较上一版减少21个 覆盖22个领域 其中39个为新晋项目 60个项目被淘汰[7] - 生态中位年龄仅30个月 平均寿命不足三年 62%的项目诞生于2022年10月"GPT时刻"之后 包含12个2025年新项目[10] - 分类框架从Infrastructure/Application进化为AI Agent/AI Infra/AI Data三大板块 反映行业以智能体为中心的技术趋势[15][16] 项目活跃度与更替 - PyTorch以92,039个Star位居榜首 vLLM以53,912个Star位列第二 新晋项目GERTINI获得66,881个Star[11] - TensorFlow因迭代迟缓退出市场 PyTorch实现生态统一[8] - 头部前十项目覆盖模型生态全链路 平均Star数接近3万 远超历史同期开源项目[10] 开发者地域分布 - 全球366,521位开发者中 美国占37.41% 中国占18.72% 中美合计贡献超55%[17][20] - 美国在AI Infra领域贡献度达43.39% 为中国的两倍 在AI Data领域优势更明显[18][19] - 中国在AI Agent领域贡献度达21.5% 与美国24.62%接近 反映应用层投入集中[23] AI Agent领域演进 - AI Coding成为最活跃赛道 完成从"补代码"到"全生命周期智能引擎"的跨越 支持多模态与团队协同[43] - Chatbot领域经历高光后回归理性 Lobe-Chat保持64.7k Star Cherry Studio以"个人知识助理"定位逆势上榜[50][53] - Agent Workflow Platform向基础设施演化 Dify提供从原型到生产的一站式平台 RAGFlow等项目快速走红[54][57] - Agent Tool领域爆款频出 Browser-use9个月获60k Star mem0解决记忆管理问题 Supabase成为GenAI数据基础设施[57] AI Infra技术趋势 - Model Serving持续高热 vLLM和SGLang主导云端推理 NVIDIA TensorRT-LLM绑定GPU硬件巩固算力优势[62][66] - 本地化推理快速发展 ollama使大模型可运行于个人设备 GPUStack等新框架持续涌现[68][70] - LLMOps接棒MLOps 成为2025年增长最快赛道 Phoenix/Langfuse等项目覆盖监控至工作流管理全环节[71][72] - 模型训练热度回落 社区更关注低成本微调方案如Unsloth集成QLoRA[78] AI Data领域状态 - 技术成熟度较高 多数项目诞生于2014-2020年 Chroma成为少数抓住RAG机遇的新秀[82] - 向量数据库等基础组件缺乏突破点 Milvus/Weaviate/Elasticsearch等已成为标准拼图[86] - 企业级场景特性使开发者关注度难以维持 但向量化/RAG/多模态处理正推动数据平台向智能中枢演进[87] 开源许可模式演变 - 新项目多采用限制性许可协议 保留许可方干预权 Dify使用BSL变体 n8n采用Fair-code条款[92][93][94] - 部分项目按用户规模设限 月活超阈值需重新授权 GitHub出现代码闭源但获高星现象[91][94] 大模型技术发展动向 - MoE架构成为主流 DeepSeek/Qwen/Kimi等模型参数达万亿级 推理时仅部分激活[101] - Reasoning能力成为标配 DeepSeek R1通过强化学习增强推理 Qwen/Claude引入"快思慢想"混合模式[102] - 多模态全面爆发 语言/图像/语音交互成基础能力 语音模态工具链Pipecat/LiveKit Agents快速完善[103][104] - 模型评价体系多元化 从人工投票平台转向OpenRouter等API网关的"数据投票"排行榜[106]
昔日王者TensorFlow,已死
量子位· 2025-09-15 08:30
TensorFlow衰落与PyTorch崛起 - TensorFlow社区活跃度已跌至历史最低点,甚至不及初发布时期[3] - PyTorch呈现高歌猛进增长态势,形成鲜明对比[3] - 蚂蚁开源正式将TensorFlow从《大模型开源开发生态全景图2.0》中除名[8] 开源生态快速迭代特征 - 开源项目兴衰计量单位已从"年"缩短为"天"[10] - 全景图1.0到2.0仅隔100天,更新39个项目,替换率达35%[11][12][17] - 60个原有项目被移出,反映AI领域极快迭代周期[17][18] 项目淘汰机制与标准 - 短期热点型项目如OpenManus和OWL因热点消退被移出[19] - 迭代速度落后项目如NextChat被新兴项目取代[20] - 同生态位竞争落后者如MLC-LLM和GPT4All被Ollama取代[21] - 项目准入门槛设定为OpenRank > 50[17] 开源定义与商业模式演变 - Top 10活跃项目中部分未采用OSI标准开源许可证[26] - Dify在Apache 2.0基础上增加多租户使用限制[26][32] - Cherry Studio采用按用户规模双许可模式[27] - n8n采用自定义"Sustainable Use License"[28] - GitHub功能扩展为集产品发布、用户反馈、社区营销一体化平台[31] - 开源运营属性增强,成为重要GTM(Go-to-Market)战略[31] 技术领域竞争焦点转移 - Agent Framework领域整体活跃度呈下降趋势[38] - Model Serving和AI Coding领域呈现显著增长态势[39] - 竞争从功能覆盖转向性能深度优化[45] - vLLM和SGLang通过技术创新提升GPU利用率[44] - NVIDIA TensorRT-LLM提供极致性能优化方案[44] 全球开发贡献格局 - 美国开发者占比24%,贡献度37.4%[46][47] - 中国开发者占比18%,贡献度18.7%[46][47] - 中美两国合计贡献度超过55%[46] - 美国在AI Infra领域贡献度43.39%,显著领先[51] - 中国在AI Agent领域贡献度21.5%,与美国24.62%差距缩小[51] 新兴项目崛起案例 - OpenCode和Gemini CLI在数月内获得极高社区关注度[54] - Browser-use项目由2名研究生9个月开发获得60K星标[55]
Mira Murati 创业公司首发长文,尝试解决 LLM 推理的不确定性难题
Founder Park· 2025-09-11 15:17
公司背景与动态 - Thinking Machines Lab由OpenAI前CTO Mira Murati于2024年2月成立的人工智能初创公司[2] - 公司推出新博客栏目Connectionism,涵盖从核函数数值计算到提示工程等广泛研究主题[3] - 核心开发者Horace He(前PyTorch核心开发者,Meta离职)加入公司并主导技术研究[8] LLM推理不确定性问题分析 - 大语言模型推理中存在不可复现性,即使温度参数设为0,API仍非确定性[10] - 开源推理库(如vLLM或SGLang)在自有硬件上运行同样存在非确定性问题[11] - 传统假设认为浮点非结合性与并发执行导致不确定性,但未完全解释根本原因[13][16] 不确定性根本原因 - 浮点运算的非结合性导致数值计算差异,但非直接原因[17][21] - 原子加法操作在并发环境下导致运行间不确定性,但LLM前向传播过程通常无需原子加法[26][29][33] - 核心问题在于缺乏批次不变性:核函数输出受batch size变化影响,而服务器负载决定batch size[35][37][40] 批次不变性解决方案 - 实现批次不变性需确保RMSNorm、矩阵乘法和注意力机制与batch size无关[42] - RMSNorm需固定归约顺序,避免因batch size变化改变并行策略[46][50] - 矩阵乘法需编译固定核函数配置,放弃Split-K等优化以保持一致性[56][60] - 注意力机制需处理序列维度和特征维度归约,采用固定拆分大小策略而非动态调度[67][72] 实验验证与性能 - 使用Qwen3-235B模型测试,未优化时1000次采样产生80种不同结果,首次差异出现在第103个token[76][77] - 启用批次不变性核函数后,1000次结果完全一致[78] - 当前未优化版本性能下降,但未出现灾难性性能损失(vLLM默认26秒 vs 确定性版本42秒)[80][81] 应用价值与行业意义 - 确定性推理可实现真正的在策略强化学习,避免训练与推理间数值差异导致的策略偏移[82] - 解决不确定性问题有助于提升科学研究的可复现性和系统可靠性[85] - 公司开源批次不变性核函数库,提供确定性推理示例(GitHub仓库thinking-machines-lab/batch_invariant_ops)[74][75]
刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相
机器之心· 2025-09-11 11:36
文章核心观点 - Thinking Machines Lab发布首篇研究文章指出大语言模型推理不确定性的根本原因是缺乏批次不变性而非浮点非结合性或并发性[1][17][41] - 通过实现批次不变性核函数可彻底解决LLM推理不确定性问题使模型在温度参数为0时产生完全确定性输出[41][86][91] - 确定性推理对强化学习训练至关重要可避免策略偏离实现真正的在策略强化学习[90][91] 公司背景与动态 - Thinking Machines Lab由OpenAI前CTO Mira Murati于2025年2月创立并推出博客栏目Connectionism致敬20世纪80年代连接主义学派[1][3] - 公司首篇博客由PyTorch核心开发者Horace He主笔其于2025年3月从Meta离职加入该公司[8] LLM推理不确定性现象 - 即使温度参数设为0大语言模型API仍无法保证确定性输出[11] - 开源推理库如vLLM或SGLang在自有硬件上运行同样存在非确定性采样问题[12] - 实验显示Qwen3-235B模型在1000次重复生成中产生80种不同结果最高频结果仅出现78次[85] 传统假设的局限性 - "并发+浮点"假设认为浮点非结合性与并发执行导致不确定性但未解释根本机制[13][14] - GPU矩阵乘法在相同输入下可保持位级一致性证明并发性并非主因[15][21] - 前向传播过程本身具有运行间确定性但系统级不确定性源于批次大小变化[39][41] 批次不变性原理 - 核函数输出结果受批次大小影响导致同一请求在不同服务器负载下产生差异[41][44] - 缺乏批次不变性的操作包括RMSNorm矩阵乘法和注意力机制[49] - 归约顺序随批次大小变化是打破不变性的关键因素例如RMSNorm中核心分配策略受batch size影响[52][56] 技术实现方案 - 矩阵乘法需固定核函数配置避免使用Split-K策略以保持批次不变性[63][67] - 注意力机制需确保KV缓存内存布局一致性并采用固定拆分大小策略而非动态调度[74][79] - 已开源批次不变性核函数库batch-invariant-ops并提供确定性vLLM示例[82][83] 性能与实验数据 - 确定性核函数使Qwen3-235B模型1000次生成结果完全一致首次差异出现于第103个token[86] - 未优化确定性vLLM在Qwen-3-8B模型推理中耗时42秒较默认配置26秒存在性能损耗但属可接受范围[88][89] - 确定性推理使强化学习训练KL散度降至0避免奖励崩溃问题[91] 行业意义 - 解决数值差异可提升科学实验可复现性并优化强化学习训练流程[90][91] - 呼吁社区深入理解系统底层机制而非容忍不确定性[94]
躺在风口上的硅谷教授,身家180亿不离讲台,捧出7家AI创企
36氪· 2025-09-02 15:20
核心观点 - Ion Stoica教授横跨产业与学术界 通过科研项目孵化多家高估值AI及数据基础设施企业 包括估值1000亿美元的Databricks等[1][3][31] - 其主导的实验室25年来产出118个科研项目 涵盖Spark/Ray/vLLM等AI核心基础设施 并成功转化为商业实体[1][9][19] - 通过创业反哺科研 将25亿美元个人资产部分投入实验室运营 并吸引英伟达/Meta/华为等企业赞助[2][28][29] 学术成果转化 - AMP实验室(2011-2016年)产出25个项目 包括Apache Spark/Apache Mesos/Alluxio三大核心基础设施[9] - RISE实验室(2017年)产出41个项目 核心成果分布式执行框架Ray转化为估值10亿美元的Anyscale[16][19][23] - 天空计算实验室(2022年)产出52个项目 包括vLLM/LMArena/MemGPT等生成式AI基础设施[24] 企业孵化成果 - **Databricks**:基于Spark框架开发 估值1000亿美元 服务60%财富500强企业 总融资208亿美元[10][12] - **Anyscale**:基于Ray框架开发 估值10亿美元 总融资2.59亿美元 客户包括Uber/OpenAI/亚马逊[20][23] - **LMArena**:大模型评估平台 估值6亿美元 托管400+AI模型 获350万张用户投票 种子轮融资1亿美元[24][25] - **Conviva**:视频流分析技术公司 估值3亿美元 总融资1.1亿美元 客户包括FOX/NBC环球[2][8] - **Alluxio**:分布式数据编排平台 总融资7300万美元 为全球十大互联网公司中九家提供支持[13][14] - **Mesosphere/D2iQ**:数据中心操作系统 最高估值7.75亿美元 总融资2.5亿美元 2023年底终止运营[14][15] - **Letta**:基于MemGPT技术 估值7000万美元 种子轮融资1000万美元 GitHub获1.8万星标[26][27] 资源整合模式 - 通过硅谷人脉获取英伟达/Meta/蚂蚁/AMD/谷歌/亚马逊/华为等企业实验室赞助[2][28] - 指导80多名学生 其中7名加入Databricks 多数进入学术界或创办企业[30] - 倡导教授通过创业获取资金 应对美国政府科研资助削减趋势[28]