大语言模型(LLM)
搜索文档
为什么说大多数LLM初创企业注定都将失败?
36氪· 2025-06-30 15:13
AI初创公司面临的挑战 - AI创业生态逐渐认清残酷现实:数千家获顶级风投支持的初创公司将未来押注于大语言模型(LLM)作为新应用平台,但这一理念存在认知谬误 [2] - 模型供应商并非类似AWS或iOS的稳定平台,而是垂直整合的端到端产品公司,与初创公司争夺用户心智 [3] - 基于他人模型构建业务的初创公司命运不由自己掌控,可能成为养料、测试案例或实验品 [3] 模块化与风投生态的误区 - LLM创业热潮中存在可组合性的妄想,创始人误以为能像基于Windows或AWS开发那样打造十亿美元级产品 [3] - 投资人与创始人将原型开发便捷性与商业模式持久性混为一谈,风险资本疯狂涌入基于公共API的套壳初创公司 [4] - 底层模型供应商不是满足于算力变现的管道,而是对下游虎视眈眈的不安分玩家,目标在于取代创业公司 [4] 幸存者的共同特征 - 少数幸存初创公司具备不可替代的护城河:分销壁垒、专有数据、推理控制或合成平台 [5][6] - 拥有深度行业关系的公司通过LLM增强客户现有工作流,优势在于整合能力而非模型 [5] - 掌握独特数据集的公司产品显著优于模型供应商内部方案,但需确保合法使用权及与工作流深度融合 [5] - 自托管或微调自有模型的初创公司掌握成本控制权、时延优势及产品自主权 [6] 垂直整合的趋势 - 模型供应商行为符合垄断企业理性选择:向上游扩张、榨取利润、掌控用户关系 [7] - AI生态正经历相变,类似Facebook吞并生态内最佳功能或微软捆绑Excel克隆,垂直整合成为宿命 [7] - 当算力变成智能,模型供应商不会甘做基础设施,而是自建下一个Salesforce取代第三方初创公司 [7] 创始人的应对策略 - 业务构建于他人LLM之上的创始人需梳理依赖链,剥离所有可被商品化的环节 [11] - 数据、分销与推理控制才是真正壁垒,其余环节危如累卵 [11] - 比模型供应商更贴近用户或可幸存,否则可能被功能开关轻易取代 [10]
从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
机器之心· 2025-06-28 13:22
从后训练回到预训练,LLM+RL的潜力分析 - 强化学习(RL)与大型语言模型(LLM)结合的技术路径从后训练阶段延伸至预训练阶段,通过将文本生成重构为序贯决策问题,引入对未来"累积奖励"的评估机制[2] - LLM传统监督学习范式面临高质量标注数据成本高、人类知识存在边界等局限,而RL通过模型与环境交互生成数据,并将监督信号从"生成式"退化为"验证式",降低了对数据质量和标注难度的要求[3] - 微软研究院与清北研究者提出的"Reinforcement Pre-Training(RPT)"技术将RL应用于预训练阶段,在部分推理基准上表现超越传统方法训练的更大模型[4] RL在预训练阶段的技术突破 - RPT方法将下一个词元预测(NTP)任务重塑为可验证的推理任务,利用海量无标注文本数据作为RL训练资源,通过生成思维链(CoT)再预测token的方式规避传统RL方法的局限[5] - 该方法突破了RLHF依赖标注数据、RLVR受限于标准答案等约束,但尚未在更广泛文本和基础模型上验证,且存在计算资源消耗大的问题[5] - 行业早在2022年就开始关注RL预训练课题,南京大学AI学院副院长等专家曾系统分析过RL中少有预训练模型的原因[6] 技术演进趋势与挑战 - LLM+RL路线从后训练向预训练延伸,显示出技术潜力但面临理论缺陷、实现难度和任务适配等多重挑战[4] - 当前RL预训练方法虽能部分解决数据依赖问题,但计算效率、泛化能力等核心瓶颈仍未完全突破[5] - 行业需持续探索如何平衡RL的序贯决策优势与LLM的生成能力,该领域的技术突破可能重塑模型训练范式[2][3][4]
AgentAuditor: 让智能体安全评估器的精确度达到人类水平
机器之心· 2025-06-27 12:02
LLM智能体安全性评估的突破性进展 核心观点 - LLM智能体正从文本生成器进化为具备自主决策和执行能力的"行动派",但自主权带来安全性评估难题[1] - 现有评估方法存在"看不懂、看不全、看不准"三大困境,难以应对复杂交互场景[1] - AgentAuditor框架通过结构化记忆和RAG技术,使LLM评估器达到人类专家水平[2][4] 技术框架 - **特征记忆构建**:将杂乱交互记录转化为含场景、风险类型等语义信息的结构化数据库[4] - **推理记忆构建**:筛选代表性案例并生成思维链(CoT),形成类似人类专家的判案经验[5] - **记忆增强推理**:通过多阶段检索机制动态调用相关CoT辅助决策,提升评估精度[6] 基准数据集 - ASSEBench包含2293条标注数据,覆盖15种风险类型、528个环境和29个应用场景[9] - 采用人机协同标注流程,引入"严格"和"宽松"双标准评估模糊风险[9] - 同时关注Safety(避免错误)和Security(防御攻击)两大维度[9] 实验效果 - Gemini-2-Flash-Thinking在ASSEBench-Safety上F1分数提升48.2%,R-Judge准确率达96.1%[12] - 在ASSEBench-Strict/Lenient子集上能自适应调整策略,缩小不同标准下的性能差距[12] - 多模型对比显示,Claude-3.5在R-Judge上准确率提升34.8%,GPT-4.1提升20.7%[13] 行业意义 - 填补LLM智能体安全评估领域空白,为人机协同标注建立新范式[17] - 通过自适应样本选择、结构化记忆等技术显著增强LLM评估能力[17] - 为构建可信赖的智能体防御系统提供研究基础和工具支持[17]
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 12:02
研究背景与目标 - 研究聚焦于开发能在开放世界图形用户界面(GUI)中自主探索的智能体,这是实现通用人工智能(AGI)的关键路径之一 [2] - 当前大语言模型(LLMs)和视觉语言模型(VLMs)已展现出跨领域任务泛化能力,为GUI智能体开发奠定基础 [2] - 吉林大学团队提出《ScreenExplorer》项目,旨在训练视觉语言模型实现GUI环境自主探索 [3] 方法论创新 - 构建实时交互的在线强化学习框架,智能体通过鼠标/键盘函数调用与真实GUI环境交互 [10][11] - 引入"好奇心机制"解决开放环境反馈稀疏问题,利用世界模型预测状态转移并估算新颖度 [10] - 采用"经验流蒸馏"训练范式,将每代智能体探索经验自动提炼用于下一代微调 [10] - 设计启发式+世界模型驱动的奖励体系,包含轨迹差异奖励、好奇心奖励、格式奖励和意图对齐奖励 [12] - 采用GRPO算法进行强化学习训练,实现多环境并行推理与实时策略更新 [14][15] 实验结果 基础模型表现 - 未经训练的Qwen2 5-VL-3B模型仅能随机点击屏幕,无法打开任何软件 [17] - 经过初步训练后,3B模型可成功打开桌面软件,7B模型能完成"加购物车"完整流程 [18][20] 性能对比 - ScreenExplorer-3B-E1训练后探索多样性达0 51,显著优于基础模型Qwen2 5-VL-3B的0 21 [23] - 7B版本ScreenExplorer-7B-E1表现更优,探索多样性达0 54,超过专用GUI模型doubao-1 5-ui-tars的0 45 [23] - 世界模型好奇心奖励对训练至关重要,去除后模型无法突破冷启动阶段 [26][28] 涌现能力 - 训练后智能体展现出跨模态翻译、现状计划制定和复杂推理等新能力 [29][32][34] - 探索产生的"意图"字段可自动生成标注数据,为后续任务训练提供基础 [34] 技术价值 - 首次实现视觉语言模型在真实GUI环境中的自主探索训练 [35] - 经验流蒸馏技术显著降低对人工标注数据的依赖,实现能力自主进化 [10][35] - 为开发更自主的智能体和实现AGI提供了可行的技术路径 [35]
舍弃CUDA编程!CMU等用几十行代码将LLM编译成巨型内核,推理延迟可降6.7倍
机器之心· 2025-06-21 09:33
核心观点 - 英伟达CUDA是当前大语言模型(LLM)训练和推理的核心计算引擎,但存在手动优化成本高、端到端延迟高等不足 [1][2] - CMU团队开发的MPK编译器可将LLM转化为优化的巨型内核,显著降低推理延迟1.2-6.7倍,逼近硬件理论极限 [3][4] - MPK通过自动化编译实现高性能推理,仅需几十行Python代码即可完成部署,大幅降低使用门槛 [5][41] 技术突破 性能优化 - 在A100-40GB GPU上,MPK将Qwen3-8B模型每个token的延迟从14.5毫秒降至12.5毫秒,接近10毫秒的理论下限 [4] - 通过消除内核启动开销、实现跨层软件流水线和重叠计算与通信三大机制,实现端到端延迟优化 [14][16] - 多GPU环境下性能提升更显著,计算与通信融合的巨型内核设计使扩展性随GPU数量增加而增强 [18] 架构创新 - 编译器将LLM计算图转化为细粒度任务图,在子内核级别显式捕获依赖关系,突破传统"单算子单内核"执行模型的限制 [20][26] - 运行时系统采用静态分区设计,将GPU流式多处理器划分为工作单元和调度单元,避免动态上下文切换开销 [30][32] - 事件驱动执行模型实现1-2微秒级的任务切换延迟,支持多层多GPU工作负载的高效调度 [35][36] 行业影响 技术替代性 - 直接解决PyTorch/Triton/TVM等现有框架无法生成端到端巨型内核的痛点 [11] - 突破NCCL/NVSHMEM/FlashAttention等专用内核库造成的碎片化问题,实现统一编译 [12] - 可能改变GPU上LLM推理工作负载的编译和执行范式 [41] 应用前景 - 已支持现代GPU架构,正在扩展至NVIDIA Blackwell等下一代平台 [43] - 计划增强对动态工作负载(如MoE模型)的支持,开发动态控制流编译策略 [43] - 探索优先级感知调度等高级功能,适用于延迟敏感型服务和混合批处理场景 [43] 实施细节 编译流程 - 将PyTorch定义的LLM计算图转化为优化任务图,最大化暴露并行性 [23] - 通过Mirage内核超优化器自动生成高性能CUDA实现 [28] - 输入输出仅需几十行Python代码指定,大幅简化部署流程 [41] 运行时机制 - 工作单元采用"获取-执行-触发"循环流程,保持持续满载运行 [33][37] - 调度单元采用分布式事件队列管理,单SM可并发运行4个调度单元 [34][38] - 通过触发/依赖事件机制实现细粒度任务同步 [31][39]
2025 年了,企业的 AI 采购预算都在怎么花?
机器之心· 2025-06-21 01:04
企业AI预算趋势 - 2023年企业在基础模型相关支出上平均投入700万美元,并计划在2024年增加2-5倍以支持规模化生产部署 [7] - 2025年企业领导者预计未来一年的AI预算将平均增长75% [7] - 2024年企业在LLM的花销有24%来自「创新预算」,而2025年这一比例骤降至7%,永久性IT预算占比从28%上涨至39% [9][10] - 企业内部员工AI采用率提升促使企业构建面向用户的AI服务,进一步推动AI支出大幅增加 [10] 企业采购LLM的偏好 - 企业倾向于在生产流程中部署多个LLM,既为规避单一供应商风险,也因不同模型的差异化能力和优势 [11] - 开源模型在企业采购中越来越受欢迎,但具体偏好因企业规模而异 [3] AI预算构成变化 - 企业不再以试点项目形式部署AI,而是以核心IT业务需求驱动,将AI采买纳入永久性预算 [8] - 2025年来自「创新预算」的LLM支出占比从24%降至7%,永久性IT预算占比从28%增至39% [9][10] AI应用生态发展 - 企业逐步从内部AI部署转向构建面向用户的AI服务,推动AI支出结构性增长 [10] - 报告从模型选择、采购流程和AI应用生态三个角度分析企业未来AI使用和规划 [10]
速递|Meta百亿美元收购Ilya遭拒,扎克伯格转身挖走SSI CEO、Siri负责人和GitHub前掌门人
搜狐财经· 2025-06-20 21:31
Meta的AI人才与资产收购战略 - 公司以143亿美元估值投资Scale AI并获得该公司49%股份 同时挖走其创始人Alexandr Wang及多位顶级工程师 [3][7] - 公司试图直接收购估值达320亿美元的Safe Superintelligence但遭拒绝 随后转向挖角其CEO Daniel Gross及GitHub前CEO Nat Friedman [3][4] - 公司通过招揽Gross和Friedman将获得他们共同创办的风投机构NFDG的部分股权 [4][9] 行业人才竞争态势 - 大型科技公司包括Meta Google OpenAI等正竞相研发大语言模型并向通用人工智能冲刺 引发全球AI人才大战 [6] - OpenAI曾拒绝Meta开出的高达1亿美元签约奖金及更高年薪的挖角邀请 并视Meta为最大竞争对手 [7] - 行业出现多起高额人才收购案例 包括OpenAI以65亿美元聘请iPhone设计师 谷歌以数十亿美元招回Character AI创始人 微软以6.5亿美元从Inflection AI收购人才 [7] 新引进高管的背景与价值 - Daniel Gross是资深AI创业者 曾创办被苹果收购的搜索引擎Cue 在苹果主导机器学习与Siri项目 后联合创办Safe Superintelligence [8] - Nat Friedman曾两次创业并担任GitHub CEO 在微软收购GitHub后执掌该平台 [9] - 两人共同创办的NFDG风投机构曾投资Coinbase Figma CoreWeave Perplexity和Character AI等明星项目 [9]
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
36氪· 2025-06-20 20:00
超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向,Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题,暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性,认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径:纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升,但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值,非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险,行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈,部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现,当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限,未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题,需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向,OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室,投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛,争夺最优训练环境设计 [33]
Andrej Karpathy:警惕"Agent之年"炒作,主动为AI改造数字infra | Jinqiu Select
锦秋集· 2025-06-20 17:08
软件演进三阶段理论 - 软件1 0时代由人类编写明确指令代码 代表为GitHub托管代码库 [8] - 软件2 0时代核心是神经网络权重 通过数据集训练生成 代表平台包括Hugging Face和Model Atlas [10] - 软件3 0时代以自然语言为编程接口 提示(Prompts)成为新程序形式 大语言模型(LLM)演变为可编程通用计算机 [10][11] LLM作为操作系统 - LLM类比为新型操作系统 模型本身充当"CPU"负责推理 上下文窗口相当于"内存" [15] - 市场格局类似早期操作系统 闭源商业提供商(如OpenAI)与开源替代方案(Llama生态系统)并存 [15] - 服务模式类似公共设施 研发实验室投入巨额Capex训练基础模型 通过API按token计量收费 [12] LLM能力与缺陷 - 超能力包括百科全书式知识记忆 信息处理量远超人类个体 [17] - 认知缺陷涵盖幻觉(编造事实) 锯齿状智能(能力不均衡) 顺行性遗忘症(无法自动巩固新知识)及安全脆弱性 [19][20] 人机协作新范式 - 部分自治应用(如Cursor)特征:自动管理上下文 编排多LLM调用 提供可视化GUI及自治程度滑块 [22] - 未来软件将普遍部分自治 需设计让LLM接触用户可操作界面并建立监督机制 [23] 软件开发民主化 - Vibe Coding现象:自然语言编程接口使非专业开发者能快速实现功能原型 [24] - 创新瓶颈从编码转向部署 手动处理认证 支付 部署等DevOps任务占90%耗时 [25][26] AI基础设施重构 - 需为第三类用户(AI智能体)设计专属交互方式 而非仅适配人类GUI或程序API [27] - 具体方案包括创建AI友好Markdown说明书 重写可执行命令文档 开发人类-AI信息转换工具 [28][29] 行业发展现实展望 - 自动驾驶案例显示技术演示与产品化存在十年级鸿沟 需警惕"2025智能体之年"类炒作 [31] - 短期应聚焦"钢铁侠战衣"式增强工具 通过人机协同设计规避LLM缺陷 [32][34] - LLM技术首次 democratized 全球数十亿普通人可直接参与范式变革 [35]
Andrej Karpathy最新演讲爆火!人类已进入「说话就能编程」的软件3.0时代
机器之心· 2025-06-20 08:58
软件演进阶段 - 软件发展划分为三个阶段:人工编写指令的「软件1.0」、以神经网络权重为核心的「软件2.0」、由LLM开启的「软件3.0」[8] - 软件1.0是直接为计算机编写的代码,软件2.0是神经网络的权重,软件3.0则是用自然语言编程LLM[24][25] - 软件2.0领域已出现类似Github的平台如Hugging Face和Model Atlas[21] LLM本质与特性 - LLM可被视为一种「新型操作系统」,其核心设置类似CPU,上下文窗口类似内存[52] - LLM是「有缺陷的超人」:知识渊博但会产生幻觉、犯低级错误且没有长期记忆[14] - LLM具有基础设施属性,类似电网建设,通过API按量计费提供智能服务[38] - LLM生态系统类似操作系统市场,有闭源提供商和开源替代品如Llama[49] 行业应用与机遇 - 当前最大机遇是开发「部分自主性」产品,而非完全自主AI[14] - Cursor和Perplexity是早期LLM应用典范,具备上下文管理、多次调用编排和自主性滑块等特性[101][103][107] - 未来软件将普遍具备「自主性滑块」,允许用户调整自主程度[104] - 需要重构数字基础设施使其对AI友好,如将文档转为Markdown格式[170][176] 开发范式转变 - 自然语言成为新编程接口,提示词就是编程LLM的程序[27] - 出现「氛围编程」现象,非专业人士也能通过自然语言描述构建软件[141][144] - 开发者需掌握三种编程范式(1.0/2.0/3.0)并根据场景灵活选择[34] - 开发流程中「生成-验证」循环的快速运转是关键,GUI可极大提升验证效率[117] 未来发展趋势 - 当前处于类似1960年代的计算纪元,LLM算力仍集中在云端[59][64] - 需要为AI重新设计数字基础设施,使其机器可读、可操作[14][187] - 未来十年将见证技术从增强工具向自主智能体的渐进式演进[189] - 钢铁侠战衣式增强工具比完全自主智能体更适合当前技术阶段[134]