Workflow
语言模型(LLM)
icon
搜索文档
舍弃CUDA编程!CMU等用几十行代码将LLM编译成巨型内核,推理延迟可降6.7倍
机器之心· 2025-06-21 09:33
核心观点 - 英伟达CUDA是当前大语言模型(LLM)训练和推理的核心计算引擎,但存在手动优化成本高、端到端延迟高等不足 [1][2] - CMU团队开发的MPK编译器可将LLM转化为优化的巨型内核,显著降低推理延迟1.2-6.7倍,逼近硬件理论极限 [3][4] - MPK通过自动化编译实现高性能推理,仅需几十行Python代码即可完成部署,大幅降低使用门槛 [5][41] 技术突破 性能优化 - 在A100-40GB GPU上,MPK将Qwen3-8B模型每个token的延迟从14.5毫秒降至12.5毫秒,接近10毫秒的理论下限 [4] - 通过消除内核启动开销、实现跨层软件流水线和重叠计算与通信三大机制,实现端到端延迟优化 [14][16] - 多GPU环境下性能提升更显著,计算与通信融合的巨型内核设计使扩展性随GPU数量增加而增强 [18] 架构创新 - 编译器将LLM计算图转化为细粒度任务图,在子内核级别显式捕获依赖关系,突破传统"单算子单内核"执行模型的限制 [20][26] - 运行时系统采用静态分区设计,将GPU流式多处理器划分为工作单元和调度单元,避免动态上下文切换开销 [30][32] - 事件驱动执行模型实现1-2微秒级的任务切换延迟,支持多层多GPU工作负载的高效调度 [35][36] 行业影响 技术替代性 - 直接解决PyTorch/Triton/TVM等现有框架无法生成端到端巨型内核的痛点 [11] - 突破NCCL/NVSHMEM/FlashAttention等专用内核库造成的碎片化问题,实现统一编译 [12] - 可能改变GPU上LLM推理工作负载的编译和执行范式 [41] 应用前景 - 已支持现代GPU架构,正在扩展至NVIDIA Blackwell等下一代平台 [43] - 计划增强对动态工作负载(如MoE模型)的支持,开发动态控制流编译策略 [43] - 探索优先级感知调度等高级功能,适用于延迟敏感型服务和混合批处理场景 [43] 实施细节 编译流程 - 将PyTorch定义的LLM计算图转化为优化任务图,最大化暴露并行性 [23] - 通过Mirage内核超优化器自动生成高性能CUDA实现 [28] - 输入输出仅需几十行Python代码指定,大幅简化部署流程 [41] 运行时机制 - 工作单元采用"获取-执行-触发"循环流程,保持持续满载运行 [33][37] - 调度单元采用分布式事件队列管理,单SM可并发运行4个调度单元 [34][38] - 通过触发/依赖事件机制实现细粒度任务同步 [31][39]
2025 年了,企业的 AI 采购预算都在怎么花?
机器之心· 2025-06-21 01:04
企业AI预算趋势 - 2023年企业在基础模型相关支出上平均投入700万美元,并计划在2024年增加2-5倍以支持规模化生产部署 [7] - 2025年企业领导者预计未来一年的AI预算将平均增长75% [7] - 2024年企业在LLM的花销有24%来自「创新预算」,而2025年这一比例骤降至7%,永久性IT预算占比从28%上涨至39% [9][10] - 企业内部员工AI采用率提升促使企业构建面向用户的AI服务,进一步推动AI支出大幅增加 [10] 企业采购LLM的偏好 - 企业倾向于在生产流程中部署多个LLM,既为规避单一供应商风险,也因不同模型的差异化能力和优势 [11] - 开源模型在企业采购中越来越受欢迎,但具体偏好因企业规模而异 [3] AI预算构成变化 - 企业不再以试点项目形式部署AI,而是以核心IT业务需求驱动,将AI采买纳入永久性预算 [8] - 2025年来自「创新预算」的LLM支出占比从24%降至7%,永久性IT预算占比从28%增至39% [9][10] AI应用生态发展 - 企业逐步从内部AI部署转向构建面向用户的AI服务,推动AI支出结构性增长 [10] - 报告从模型选择、采购流程和AI应用生态三个角度分析企业未来AI使用和规划 [10]
速递|Meta百亿美元收购Ilya遭拒,扎克伯格转身挖走SSI CEO、Siri负责人和GitHub前掌门人
搜狐财经· 2025-06-20 21:31
图片来源:Unsplash 在宣布以143亿美元投资人工智能初创公司 Scale AI,并挖走其创始人 Alexandr Wang 后,Meta CEO 马克·扎克伯格显然才刚刚开始他的 AI 人才收割战。 据知情人士透露, 扎克伯格的 AI 豪掷计划已进一步瞄准了 Safe Superintelligence 的 CEO、前苹果高管 Daniel Gross,以及 GitHub 前 CEO Nat Friedman。 这本不是扎克伯格最初设想的合作方式。 消息人士称,今年早些时候,Meta 曾试图直接收购 Safe Superintelligence——这家由 OpenAI 联合创始人 Ilya Sutskever 创立的公司,在今年4月的一轮融 资中估值达到了320亿美元。然而,Sutskever 不仅拒绝了收购提议,也婉拒了 Meta 对其本人的挖角邀请。 在与 Sutskever 谈判破裂后不久,扎克伯格便转向与 Gross 展开接洽。据悉,Gross 除了领导 Safe Superintelligence 外,还与 Friedman 共同创办了风投机构 NFDG(取自两人姓名首字母)。 消息称, G ...
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
36氪· 2025-06-20 20:00
超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向,Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题,暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性,认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径:纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升,但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值,非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险,行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈,部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现,当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限,未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题,需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向,OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室,投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛,争夺最优训练环境设计 [33]
Andrej Karpathy:警惕"Agent之年"炒作,主动为AI改造数字infra | Jinqiu Select
锦秋集· 2025-06-20 17:08
软件演进三阶段理论 - 软件1 0时代由人类编写明确指令代码 代表为GitHub托管代码库 [8] - 软件2 0时代核心是神经网络权重 通过数据集训练生成 代表平台包括Hugging Face和Model Atlas [10] - 软件3 0时代以自然语言为编程接口 提示(Prompts)成为新程序形式 大语言模型(LLM)演变为可编程通用计算机 [10][11] LLM作为操作系统 - LLM类比为新型操作系统 模型本身充当"CPU"负责推理 上下文窗口相当于"内存" [15] - 市场格局类似早期操作系统 闭源商业提供商(如OpenAI)与开源替代方案(Llama生态系统)并存 [15] - 服务模式类似公共设施 研发实验室投入巨额Capex训练基础模型 通过API按token计量收费 [12] LLM能力与缺陷 - 超能力包括百科全书式知识记忆 信息处理量远超人类个体 [17] - 认知缺陷涵盖幻觉(编造事实) 锯齿状智能(能力不均衡) 顺行性遗忘症(无法自动巩固新知识)及安全脆弱性 [19][20] 人机协作新范式 - 部分自治应用(如Cursor)特征:自动管理上下文 编排多LLM调用 提供可视化GUI及自治程度滑块 [22] - 未来软件将普遍部分自治 需设计让LLM接触用户可操作界面并建立监督机制 [23] 软件开发民主化 - Vibe Coding现象:自然语言编程接口使非专业开发者能快速实现功能原型 [24] - 创新瓶颈从编码转向部署 手动处理认证 支付 部署等DevOps任务占90%耗时 [25][26] AI基础设施重构 - 需为第三类用户(AI智能体)设计专属交互方式 而非仅适配人类GUI或程序API [27] - 具体方案包括创建AI友好Markdown说明书 重写可执行命令文档 开发人类-AI信息转换工具 [28][29] 行业发展现实展望 - 自动驾驶案例显示技术演示与产品化存在十年级鸿沟 需警惕"2025智能体之年"类炒作 [31] - 短期应聚焦"钢铁侠战衣"式增强工具 通过人机协同设计规避LLM缺陷 [32][34] - LLM技术首次 democratized 全球数十亿普通人可直接参与范式变革 [35]
Andrej Karpathy最新演讲爆火!人类已进入「说话就能编程」的软件3.0时代
机器之心· 2025-06-20 08:58
软件演进阶段 - 软件发展划分为三个阶段:人工编写指令的「软件1.0」、以神经网络权重为核心的「软件2.0」、由LLM开启的「软件3.0」[8] - 软件1.0是直接为计算机编写的代码,软件2.0是神经网络的权重,软件3.0则是用自然语言编程LLM[24][25] - 软件2.0领域已出现类似Github的平台如Hugging Face和Model Atlas[21] LLM本质与特性 - LLM可被视为一种「新型操作系统」,其核心设置类似CPU,上下文窗口类似内存[52] - LLM是「有缺陷的超人」:知识渊博但会产生幻觉、犯低级错误且没有长期记忆[14] - LLM具有基础设施属性,类似电网建设,通过API按量计费提供智能服务[38] - LLM生态系统类似操作系统市场,有闭源提供商和开源替代品如Llama[49] 行业应用与机遇 - 当前最大机遇是开发「部分自主性」产品,而非完全自主AI[14] - Cursor和Perplexity是早期LLM应用典范,具备上下文管理、多次调用编排和自主性滑块等特性[101][103][107] - 未来软件将普遍具备「自主性滑块」,允许用户调整自主程度[104] - 需要重构数字基础设施使其对AI友好,如将文档转为Markdown格式[170][176] 开发范式转变 - 自然语言成为新编程接口,提示词就是编程LLM的程序[27] - 出现「氛围编程」现象,非专业人士也能通过自然语言描述构建软件[141][144] - 开发者需掌握三种编程范式(1.0/2.0/3.0)并根据场景灵活选择[34] - 开发流程中「生成-验证」循环的快速运转是关键,GUI可极大提升验证效率[117] 未来发展趋势 - 当前处于类似1960年代的计算纪元,LLM算力仍集中在云端[59][64] - 需要为AI重新设计数字基础设施,使其机器可读、可操作[14][187] - 未来十年将见证技术从增强工具向自主智能体的渐进式演进[189] - 钢铁侠战衣式增强工具比完全自主智能体更适合当前技术阶段[134]
AI正在重塑软件开发流程,软件ETF(159852)单日“吸金”超2300万元,电科网安10cm涨停
新浪财经· 2025-06-19 13:52
市场表现 - 中证软件服务指数下跌1 39% 成分股中电科网安涨停 中科星图上涨3 10% 启明星辰上涨1 53% 同花顺 恒生电子 财富趋势领跌 [1] - 软件ETF(159852)最新份额达38 23亿份 创近1月新高 近1周规模增长2998 16万元 新增规模位居可比基金第一 [3] - 软件ETF近1年净值上涨29 42% 在指数股票型基金中排名前14 67% 自成立以来最高单月回报为39 35% 最长连涨涨幅达69 40% [3] 流动性及资金流向 - 软件ETF盘中换手2 59% 成交7601 35万元 近1年日均成交1 54亿元 居可比基金第一 [3] - 软件ETF最新资金净流入2311 20万元 近5个交易日合计净流入4169 81万元 [3] 行业动态 - 2025南京软件大会以"工业软件赋智开源创新赋能"为主题 聚焦工业软件 信创产业 开源生态等领域 [3] - AI正重塑软件开发流程 大语言模型与智能体技术将渗透至操作系统开发等底层领域 推动低代码/零代码应用构建 [4] 指数成分股 - 中证软件服务指数前十大权重股合计占比59 85% 包括科大讯飞(11 19%) 金山办公(8 92%) 同花顺(7 79%)等 [5] - 权重股当日普遍下跌 同花顺(-2 95%) 恒生电子(-2 91%) 深信服(-2 47%)跌幅居前 [7]
信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
机器之心· 2025-06-18 14:09
大语言模型(LLM)技术发展 - LLM在不到十年内将人工智能能力普及给全球数亿用户,实现自然语言创作、编程和推理[2] - LLM技术版图快速扩张,包括模型竞赛和自主执行任务的智能体发展[2] - MIT CSAIL发布的50个关键问题指南帮助深入理解LLM核心概念与技术[3][5] 核心架构与基本概念 - Token化将文本分解为更小单元,对处理多语言和稀有词汇至关重要[7][9] - 注意力机制通过查询、键和值向量分配不同重要性级别,增强上下文理解[10][12] - 上下文窗口定义模型短期记忆能力,平衡窗口大小与计算效率是关键[13] - 序列到序列模型由编码器和解码器组成,应用于机器翻译等场景[15] - 嵌入向量捕获token语义特征,通常随机初始化或使用预训练模型[17] 模型训练与微调技术 - LoRA通过低秩矩阵实现高效微调,QLoRA进一步量化至4位精度减少内存使用[34] - 模型蒸馏训练小模型复制大模型输出,实现设备端部署[38] - PEFT通过冻结大部分参数缓解灾难性遗忘,保持预训练知识[43] - 超参数如学习率直接影响模型收敛性和性能表现[45] 文本生成与推理优化 - 束搜索保留多个候选序列,相比贪婪解码产生更连贯输出[51] - 温度参数控制输出随机性,0.8通常实现创造力与连贯性平衡[53] - 提示工程通过精心设计输入显著提升零样本/少样本任务性能[56] - RAG结合检索外部知识提高生成内容的事实准确性[57][58] - 思维链提示将复杂问题分解为逻辑步骤,增强推理能力[61] 训练范式与模型类型 - 掩码语言建模通过预测隐藏token实现双向语言理解[68] - 自回归模型(GPT)与掩码模型(BERT)分别在生成和理解任务中表现突出[70] - 零样本学习利用预训练知识执行未经专门训练的任务[77] - 少样本学习仅需少量示例即可适应新任务,降低数据需求[79] 高级模型与系统演进 - GPT-4相比GPT-3在多模态处理和复杂对话方面显著进步[100] - Gemini通过统一架构处理多模态输入,上下文窗口达25000 token[101][102] - 专家混合(MoE)激活特定子网络,实现万亿参数模型高效运行[106] - 知识图谱集成提供结构化事实信息,减少模型幻觉[107][108] 应用挑战与行业影响 - LLM部署面临计算资源密集、偏见延续和隐私保护等挑战[116] - 传统统计语言模型相比LLM在长距离依赖处理能力上存在局限[115] - 修复偏见输出需分析数据模式、改进数据集和针对性微调[113][114]
LLM 翻车现场,ChatGPT 挑战 1979《Video Chess》惨败:连车马象都认错
36氪· 2025-06-17 17:12
话题1:AI模型在棋类游戏中的表现 - ChatGPT在与Atari 2600的象棋对局中输给了48年前、频率1.19 MHz的8位主机[2] - ChatGPT在90分钟的对局中频繁犯错,包括认错棋子、错失双兵叉、记不住被吃掉的棋子等[4] - ChatGPT最终主动认输,表现出在棋类游戏中的明显短板[4] 话题2:语言模型的技术局限性 - ChatGPT作为语言模型,通过分析文本学习词语相关性,基于概率决定输出,不适合棋类游戏的离散系统[5] - 语言模型缺乏"内部记忆"追踪棋盘状态,容易在多个回合后混淆上下文[5] - 语言模型没有专门为棋类构建的"状态表达结构",无法像专业象棋引擎那样进行深度搜索[5] 话题3:AI能力的边界与思考 - 语言模型擅长捕捉序列概率,但不擅长高度组合性的任务[7] - 该事件引发对AI是否真正"懂得"某件事的思考,包括在自动驾驶、金融风控等复杂场景中的应用[7] - 事件暴露了当前对"AI能力"的理解可能存在过度包装的问题[7]
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
机器之心· 2025-06-16 12:04
本文共同一作是张翔和曹峻泰。张翔是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和 AI for Science;曹峻泰是英属哥伦比亚大学研究生, 主要研究兴趣集中在大模型推理和可解释性研究;本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽,以及来自 Meta Gen AI 的研究员丁渡鉴。 近年来,大型语言模型(LLM)在自然语言处理领域取得了革命性进展。然而,其底层的 Transformer 架构在处理复杂推理任务时仍有不足。尽管「思维 链」(CoT)提示技术提供了一条实用路径,但多数方法依赖通用指令,导致提示工程高度依赖反复试验,缺乏理论指导。 图 1 :Prompt 模板深刻影响着答案空间的配置和导航方式。左侧展示了不同的 Prompt(如 Auto-Prompt、RL-Prompt)如何在「Prompt 空间」中进行搜索,而右侧则展示了在特定 Prompt 指导下,如何在「答案空间」中进行搜索以得到解决方案(如 Tree-of-Thought、Graph-of-Thought)。 来自英属哥伦比亚大学、纽约大学石溪分校和浙江大学的研究团队深入剖析了 Prompt 如何在 LLM 的 CoT ...