语言模型（LLM） - 财报，业绩电话会，研报，新闻

语言模型（LLM）

搜索文档

舍弃CUDA编程！CMU等用几十行代码将LLM编译成巨型内核，推理延迟可降6.7倍

机器之心· 2025-06-21 09:33

核心观点 - 英伟达CUDA是当前大语言模型(LLM)训练和推理的核心计算引擎，但存在手动优化成本高、端到端延迟高等不足 [1][2] - CMU团队开发的MPK编译器可将LLM转化为优化的巨型内核，显著降低推理延迟1.2-6.7倍，逼近硬件理论极限 [3][4] - MPK通过自动化编译实现高性能推理，仅需几十行Python代码即可完成部署，大幅降低使用门槛 [5][41] 技术突破性能优化 - 在A100-40GB GPU上，MPK将Qwen3-8B模型每个token的延迟从14.5毫秒降至12.5毫秒，接近10毫秒的理论下限 [4] - 通过消除内核启动开销、实现跨层软件流水线和重叠计算与通信三大机制，实现端到端延迟优化 [14][16] - 多GPU环境下性能提升更显著，计算与通信融合的巨型内核设计使扩展性随GPU数量增加而增强 [18] 架构创新 - 编译器将LLM计算图转化为细粒度任务图，在子内核级别显式捕获依赖关系，突破传统"单算子单内核"执行模型的限制 [20][26] - 运行时系统采用静态分区设计，将GPU流式多处理器划分为工作单元和调度单元，避免动态上下文切换开销 [30][32] - 事件驱动执行模型实现1-2微秒级的任务切换延迟，支持多层多GPU工作负载的高效调度 [35][36] 行业影响技术替代性 - 直接解决PyTorch/Triton/TVM等现有框架无法生成端到端巨型内核的痛点 [11] - 突破NCCL/NVSHMEM/FlashAttention等专用内核库造成的碎片化问题，实现统一编译 [12] - 可能改变GPU上LLM推理工作负载的编译和执行范式 [41] 应用前景 - 已支持现代GPU架构，正在扩展至NVIDIA Blackwell等下一代平台 [43] - 计划增强对动态工作负载(如MoE模型)的支持，开发动态控制流编译策略 [43] - 探索优先级感知调度等高级功能，适用于延迟敏感型服务和混合批处理场景 [43] 实施细节编译流程 - 将PyTorch定义的LLM计算图转化为优化任务图，最大化暴露并行性 [23] - 通过Mirage内核超优化器自动生成高性能CUDA实现 [28] - 输入输出仅需几十行Python代码指定，大幅简化部署流程 [41] 运行时机制 - 工作单元采用"获取-执行-触发"循环流程，保持持续满载运行 [33][37] - 调度单元采用分布式事件队列管理，单SM可并发运行4个调度单元 [34][38] - 通过触发/依赖事件机制实现细粒度任务同步 [31][39]

大语言模型（LLM）

巨型内核

人工智能

Mirage Persistent Kernel（MPK）

Mirage Persistent Kernel（MPK）

CUDA

2025 年了，企业的 AI 采购预算都在怎么花？

机器之心· 2025-06-21 01:04

企业AI预算趋势 - 2023年企业在基础模型相关支出上平均投入700万美元，并计划在2024年增加2-5倍以支持规模化生产部署 [7] - 2025年企业领导者预计未来一年的AI预算将平均增长75% [7] - 2024年企业在LLM的花销有24%来自「创新预算」，而2025年这一比例骤降至7%，永久性IT预算占比从28%上涨至39% [9][10] - 企业内部员工AI采用率提升促使企业构建面向用户的AI服务，进一步推动AI支出大幅增加 [10] 企业采购LLM的偏好 - 企业倾向于在生产流程中部署多个LLM，既为规避单一供应商风险，也因不同模型的差异化能力和优势 [11] - 开源模型在企业采购中越来越受欢迎，但具体偏好因企业规模而异 [3] AI预算构成变化 - 企业不再以试点项目形式部署AI，而是以核心IT业务需求驱动，将AI采买纳入永久性预算 [8] - 2025年来自「创新预算」的LLM支出占比从24%降至7%，永久性IT预算占比从28%增至39% [9][10] AI应用生态发展 - 企业逐步从内部AI部署转向构建面向用户的AI服务，推动AI支出结构性增长 [10] - 报告从模型选择、采购流程和AI应用生态三个角度分析企业未来AI使用和规划 [10]

速递｜Meta百亿美元收购Ilya遭拒，扎克伯格转身挖走SSI CEO、Siri负责人和GitHub前掌门人

搜狐财经· 2025-06-20 21:31

图片来源：Unsplash 在宣布以143亿美元投资人工智能初创公司 Scale AI，并挖走其创始人 Alexandr Wang 后，Meta CEO 马克·扎克伯格显然才刚刚开始他的 AI 人才收割战。据知情人士透露，扎克伯格的 AI 豪掷计划已进一步瞄准了 Safe Superintelligence 的 CEO、前苹果高管 Daniel Gross，以及 GitHub 前 CEO Nat Friedman。这本不是扎克伯格最初设想的合作方式。消息人士称，今年早些时候，Meta 曾试图直接收购 Safe Superintelligence——这家由 OpenAI 联合创始人 Ilya Sutskever 创立的公司，在今年4月的一轮融资中估值达到了320亿美元。然而，Sutskever 不仅拒绝了收购提议，也婉拒了 Meta 对其本人的挖角邀请。在与 Sutskever 谈判破裂后不久，扎克伯格便转向与 Gross 展开接洽。据悉，Gross 除了领导 Safe Superintelligence 外，还与 Friedman 共同创办了风投机构 NFDG（取自两人姓名首字母）。消息称， G ...

Meta Platforms(US:META)

通用人工智能（AGI）

大语言模型（LLM）

Artificial Intelligence

Siri

通用人工智能（AGI）

大语言模型（LLM）

Artificial Intelligence

Siri

OpenAI路线遭质疑，Meta研究员：根本无法构建超级智能

36氪· 2025-06-20 20:00

超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向，Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题，暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性，认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径：纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升，但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值，非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险，行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈，部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现，当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限，未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题，需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向，OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室，投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛，争夺最优训练环境设计 [33]

Meta Platforms(US:META)

Andrej Karpathy：警惕"Agent之年"炒作，主动为AI改造数字infra | Jinqiu Select

锦秋集· 2025-06-20 17:08

软件演进三阶段理论 - 软件1 0时代由人类编写明确指令代码代表为GitHub托管代码库 [8] - 软件2 0时代核心是神经网络权重通过数据集训练生成代表平台包括Hugging Face和Model Atlas [10] - 软件3 0时代以自然语言为编程接口提示(Prompts)成为新程序形式大语言模型(LLM)演变为可编程通用计算机 [10][11] LLM作为操作系统 - LLM类比为新型操作系统模型本身充当"CPU"负责推理上下文窗口相当于"内存" [15] - 市场格局类似早期操作系统闭源商业提供商(如OpenAI)与开源替代方案(Llama生态系统)并存 [15] - 服务模式类似公共设施研发实验室投入巨额Capex训练基础模型通过API按token计量收费 [12] LLM能力与缺陷 - 超能力包括百科全书式知识记忆信息处理量远超人类个体 [17] - 认知缺陷涵盖幻觉(编造事实) 锯齿状智能(能力不均衡) 顺行性遗忘症(无法自动巩固新知识)及安全脆弱性 [19][20] 人机协作新范式 - 部分自治应用(如Cursor)特征：自动管理上下文编排多LLM调用提供可视化GUI及自治程度滑块 [22] - 未来软件将普遍部分自治需设计让LLM接触用户可操作界面并建立监督机制 [23] 软件开发民主化 - Vibe Coding现象：自然语言编程接口使非专业开发者能快速实现功能原型 [24] - 创新瓶颈从编码转向部署手动处理认证支付部署等DevOps任务占90%耗时 [25][26] AI基础设施重构 - 需为第三类用户(AI智能体)设计专属交互方式而非仅适配人类GUI或程序API [27] - 具体方案包括创建AI友好Markdown说明书重写可执行命令文档开发人类-AI信息转换工具 [28][29] 行业发展现实展望 - 自动驾驶案例显示技术演示与产品化存在十年级鸿沟需警惕"2025智能体之年"类炒作 [31] - 短期应聚焦"钢铁侠战衣"式增强工具通过人机协同设计规避LLM缺陷 [32][34] - LLM技术首次 democratized 全球数十亿普通人可直接参与范式变革 [35]

机器之心· 2025-06-20 08:58

软件演进阶段 - 软件发展划分为三个阶段：人工编写指令的「软件1.0」、以神经网络权重为核心的「软件2.0」、由LLM开启的「软件3.0」[8] - 软件1.0是直接为计算机编写的代码，软件2.0是神经网络的权重，软件3.0则是用自然语言编程LLM[24][25] - 软件2.0领域已出现类似Github的平台如Hugging Face和Model Atlas[21] LLM本质与特性 - LLM可被视为一种「新型操作系统」，其核心设置类似CPU，上下文窗口类似内存[52] - LLM是「有缺陷的超人」：知识渊博但会产生幻觉、犯低级错误且没有长期记忆[14] - LLM具有基础设施属性，类似电网建设，通过API按量计费提供智能服务[38] - LLM生态系统类似操作系统市场，有闭源提供商和开源替代品如Llama[49] 行业应用与机遇 - 当前最大机遇是开发「部分自主性」产品，而非完全自主AI[14] - Cursor和Perplexity是早期LLM应用典范，具备上下文管理、多次调用编排和自主性滑块等特性[101][103][107] - 未来软件将普遍具备「自主性滑块」，允许用户调整自主程度[104] - 需要重构数字基础设施使其对AI友好，如将文档转为Markdown格式[170][176] 开发范式转变 - 自然语言成为新编程接口，提示词就是编程LLM的程序[27] - 出现「氛围编程」现象，非专业人士也能通过自然语言描述构建软件[141][144] - 开发者需掌握三种编程范式（1.0/2.0/3.0）并根据场景灵活选择[34] - 开发流程中「生成-验证」循环的快速运转是关键，GUI可极大提升验证效率[117] 未来发展趋势 - 当前处于类似1960年代的计算纪元，LLM算力仍集中在云端[59][64] - 需要为AI重新设计数字基础设施，使其机器可读、可操作[14][187] - 未来十年将见证技术从增强工具向自主智能体的渐进式演进[189] - 钢铁侠战衣式增强工具比完全自主智能体更适合当前技术阶段[134]

AI正在重塑软件开发流程，软件ETF(159852)单日“吸金”超2300万元，电科网安10cm涨停

新浪财经· 2025-06-19 13:52

市场表现 - 中证软件服务指数下跌1 39% 成分股中电科网安涨停中科星图上涨3 10% 启明星辰上涨1 53% 同花顺恒生电子财富趋势领跌 [1] - 软件ETF(159852)最新份额达38 23亿份创近1月新高近1周规模增长2998 16万元新增规模位居可比基金第一 [3] - 软件ETF近1年净值上涨29 42% 在指数股票型基金中排名前14 67% 自成立以来最高单月回报为39 35% 最长连涨涨幅达69 40% [3] 流动性及资金流向 - 软件ETF盘中换手2 59% 成交7601 35万元近1年日均成交1 54亿元居可比基金第一 [3] - 软件ETF最新资金净流入2311 20万元近5个交易日合计净流入4169 81万元 [3] 行业动态 - 2025南京软件大会以"工业软件赋智开源创新赋能"为主题聚焦工业软件信创产业开源生态等领域 [3] - AI正重塑软件开发流程大语言模型与智能体技术将渗透至操作系统开发等底层领域推动低代码/零代码应用构建 [4] 指数成分股 - 中证软件服务指数前十大权重股合计占比59 85% 包括科大讯飞(11 19%) 金山办公(8 92%) 同花顺(7 79%)等 [5] - 权重股当日普遍下跌同花顺(-2 95%) 恒生电子(-2 91%) 深信服(-2 47%)跌幅居前 [7]

信息过载时代，如何真正「懂」LLM？从MIT分享的50个面试题开始

机器之心· 2025-06-18 14:09

大语言模型(LLM)技术发展 - LLM在不到十年内将人工智能能力普及给全球数亿用户，实现自然语言创作、编程和推理[2] - LLM技术版图快速扩张，包括模型竞赛和自主执行任务的智能体发展[2] - MIT CSAIL发布的50个关键问题指南帮助深入理解LLM核心概念与技术[3][5] 核心架构与基本概念 - Token化将文本分解为更小单元，对处理多语言和稀有词汇至关重要[7][9] - 注意力机制通过查询、键和值向量分配不同重要性级别，增强上下文理解[10][12] - 上下文窗口定义模型短期记忆能力，平衡窗口大小与计算效率是关键[13] - 序列到序列模型由编码器和解码器组成，应用于机器翻译等场景[15] - 嵌入向量捕获token语义特征，通常随机初始化或使用预训练模型[17] 模型训练与微调技术 - LoRA通过低秩矩阵实现高效微调，QLoRA进一步量化至4位精度减少内存使用[34] - 模型蒸馏训练小模型复制大模型输出，实现设备端部署[38] - PEFT通过冻结大部分参数缓解灾难性遗忘，保持预训练知识[43] - 超参数如学习率直接影响模型收敛性和性能表现[45] 文本生成与推理优化 - 束搜索保留多个候选序列，相比贪婪解码产生更连贯输出[51] - 温度参数控制输出随机性，0.8通常实现创造力与连贯性平衡[53] - 提示工程通过精心设计输入显著提升零样本/少样本任务性能[56] - RAG结合检索外部知识提高生成内容的事实准确性[57][58] - 思维链提示将复杂问题分解为逻辑步骤，增强推理能力[61] 训练范式与模型类型 - 掩码语言建模通过预测隐藏token实现双向语言理解[68] - 自回归模型(GPT)与掩码模型(BERT)分别在生成和理解任务中表现突出[70] - 零样本学习利用预训练知识执行未经专门训练的任务[77] - 少样本学习仅需少量示例即可适应新任务，降低数据需求[79] 高级模型与系统演进 - GPT-4相比GPT-3在多模态处理和复杂对话方面显著进步[100] - Gemini通过统一架构处理多模态输入，上下文窗口达25000 token[101][102] - 专家混合(MoE)激活特定子网络，实现万亿参数模型高效运行[106] - 知识图谱集成提供结构化事实信息，减少模型幻觉[107][108] 应用挑战与行业影响 - LLM部署面临计算资源密集、偏见延续和隐私保护等挑战[116] - 传统统计语言模型相比LLM在长距离依赖处理能力上存在局限[115] - 修复偏见输出需分析数据模式、改进数据集和针对性微调[113][114]

LLM 翻车现场，ChatGPT 挑战 1979《Video Chess》惨败：连车马象都认错

36氪· 2025-06-17 17:12

话题1：AI模型在棋类游戏中的表现 - ChatGPT在与Atari 2600的象棋对局中输给了48年前、频率1.19 MHz的8位主机[2] - ChatGPT在90分钟的对局中频繁犯错，包括认错棋子、错失双兵叉、记不住被吃掉的棋子等[4] - ChatGPT最终主动认输，表现出在棋类游戏中的明显短板[4] 话题2：语言模型的技术局限性 - ChatGPT作为语言模型，通过分析文本学习词语相关性，基于概率决定输出，不适合棋类游戏的离散系统[5] - 语言模型缺乏"内部记忆"追踪棋盘状态，容易在多个回合后混淆上下文[5] - 语言模型没有专门为棋类构建的"状态表达结构"，无法像专业象棋引擎那样进行深度搜索[5] 话题3：AI能力的边界与思考 - 语言模型擅长捕捉序列概率，但不擅长高度组合性的任务[7] - 该事件引发对AI是否真正"懂得"某件事的思考，包括在自动驾驶、金融风控等复杂场景中的应用[7] - 事件暴露了当前对"AI能力"的理解可能存在过度包装的问题[7]

ACL 2025｜为什么你设计的 Prompt 会成功？新理论揭示大模型 Prompt 设计的奥秘与效能

机器之心· 2025-06-16 12:04

本文共同一作是张翔和曹峻泰。张翔是英属哥伦比亚大学研究生，主要研究兴趣集中在大模型推理和 AI for Science；曹峻泰是英属哥伦比亚大学研究生，主要研究兴趣集中在大模型推理和可解释性研究；本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽，以及来自 Meta Gen AI 的研究员丁渡鉴。近年来，大型语言模型（LLM）在自然语言处理领域取得了革命性进展。然而，其底层的 Transformer 架构在处理复杂推理任务时仍有不足。尽管「思维链」（CoT）提示技术提供了一条实用路径，但多数方法依赖通用指令，导致提示工程高度依赖反复试验，缺乏理论指导。图 1 ：Prompt 模板深刻影响着答案空间的配置和导航方式。左侧展示了不同的 Prompt（如 Auto-Prompt、RL-Prompt）如何在「Prompt 空间」中进行搜索，而右侧则展示了在特定 Prompt 指导下，如何在「答案空间」中进行搜索以得到解决方案（如 Tree-of-Thought、Graph-of-Thought）。来自英属哥伦比亚大学、纽约大学石溪分校和浙江大学的研究团队深入剖析了 Prompt 如何在 LLM 的 CoT ...

gpt - 4o - classic网页版

gpt - 4o - classic网页版

gpt - 4o mini API

Previous Next