大语言模型(LLM)
搜索文档
AI 编程终结的不是代码,而是作为「容器」的软件
Founder Park· 2025-06-03 20:56
AI驱动的软件生产变革 - 大语言模型(LLM)将软件开发的边际成本压至趋近于零 类似互联网对内容生产的颠覆效应 [3][6] - 代码生成成本降至零后 传统软件作为独立"应用程序"或"平台"的形式将逐渐消失 [3][6] - 工作重点从"怎么写代码"转变为"描述需求" 模型自主决定实现方式 [10] 产业层级重构 - 算力作为最底层资源 正从中心化数据中心向边缘设备渗透 本地模型开始部署于终端设备 [13] - 上下文数据(用户习惯/偏好/历史)构成中间层 使模型比公开语料更了解个体需求 [13] - 信任成为最稀缺的顶层资源 决定AI代理能否代表用户做决策 [13] 软件形态进化 - 软件容器的概念正在消融 功能将脱离特定应用形态实现自由流动 [15][16] - 历史类比显示 内容自由流动会导致载体消亡(如报纸→网页 CD→流媒体) [15] - 未来软件功能将实现"无处不在 触手可及"的无限调用状态 [16] 生产力跃迁 - 原本需要团队完成的软件原型 现可通过单一提示词即时生成 [8] - AI赋予"描述"这一新生产动词 取代Web2.0时代的"上传"动词 [10] - 系统响应速度将成为新竞争维度 透明度让位于便利性 [13]
疯了!我那些怀疑 AI 的程序员朋友,都疯了!网友:越聪明越觉得 LLM 不行
程序员的那些事· 2025-06-03 18:12
AI编程助手/LLM行业现状 - AI编程助手话题在技术社区引发激烈讨论,HackerNews单篇文章18小时内获得1830条留言 [1] - 科技公司高管普遍推动大语言模型应用,但部分资深技术人员持怀疑态度,认为类似NFT泡沫 [3] - 行业出现两极分化:怀疑派认为AI无法取代程序员,支持派则认为已改变工作方式 [8][38] 技术实现与工具链 - 现代AI编程采用智能体(agent)模式,可自主操作代码库、运行测试并迭代,远超早期直接复制生成代码的方式 [5] - 智能体核心价值在于工具链设计而非模型本身,熟练开发者可用周末时间构建实用编程智能体 [6] - 领先工具如Cursor、Cline通过深度集成显著提升效率,能处理复杂重构和依赖管理等传统难题 [34] 生产力影响 - AI可处理项目中80%的重复性编码工作,大幅减少资料查询时间,使开发者专注核心逻辑 [10] - 典型工作流:开发者异步提交多项任务,AI可并行处理并返回可直接合并的代码请求 [24] - 实际案例显示AI能发现人类数月未能解决的系统问题(如LVM元数据损坏) [25] 代码质量争议 - AI生成代码质量下限高于人类平均水平,尤其在算法实现和边界条件处理方面 [19] - 反对观点认为AI代码缺乏创新性,支持方回应"普通代码"本就是行业常态且足够实用 [18] - 代码审查责任始终在人类开发者,使用AI仍需逐行检查并调整风格 [11] 语言适配差异 - Go语言因类型安全和丰富标准库成为AI编程最佳搭档,Rust等语言适配度较低 [16] - 开发者开始将AI适配性纳入语言选型考量,形成新的技术栈选择标准 [16] 行业变革趋势 - AI编程可能重复开源软件历史,通过自动化提高效率但减少岗位需求 [21] - 类比Photoshop对设计行业影响,技术不会取代职业但会重塑工作方式 [36] - 当前阶段工具链进步比模型能力突破对实际生产力的影响更显著 [34]
搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究
量子位· 2025-05-29 09:08
大语言模型搜索智能体效率优化 - 大语言模型驱动的搜索智能体通过动态拆解问题、交错执行推理和检索来解决复杂任务,展现强大能力 [1] - 深度交互存在显著效率痛点,包括检索慢、不准等问题拖慢整体流程 [2][3] - SearchAgent-X框架实现吞吐量提升1.3-3.4倍,延迟降至1/1.7-1/5,且不牺牲答案质量 [3] 检索效率瓶颈分析 - 检索精度存在非单调关系:过低精度导致更多轮次检索,过高精度则计算资源消耗过大 [5][6] - 研究表明系统吞吐量随近似检索精度先升后降,超过最佳点后检索成本反噬效率 [6] - 检索延迟微小增加可导致端到端延迟放大高达83倍,与KV-cache命中率骤降相关 [11] 延迟放大核心原因 - 不当调度导致55.9%的token被不必要重计算,因长任务KV-cache被短任务抢占 [12] - 异步检索与生成时间错位使25%序列经历检索停滞,错过调度批次 [13] SearchAgent-X优化机制 - 优先级感知调度动态排序请求,核心理念是"让最有价值的计算优先" [17][18] - 无停顿检索采用自适应提前终止策略,判断检索成熟度与LLM就绪状态 [19][20][22] 性能验证结果 - 离线推理吞吐量比基线高1.3-3.4倍,延迟降至20%-60% [27] - 在线推理完成请求量多1.5-3.5倍,高负载时达基线5.8倍 [27] - 六个数据集测试显示生成准确率与精确检索基线相当,部分数据集因扰动略有提升 [28][29] 技术组件贡献度 - 优先级调度使KV-cache命中率从0.07提升至0.51,延迟降低35.55% [30] - 无停顿检索进一步将命中率提升至0.65,微小时间节省显著影响端到端延迟 [31] 行业应用启示 - AI智能体需平衡工具性能与整体工作流匹配度,单一组件并非越高越好 [33] - 复杂系统中微小延迟和调度不当会产生雪崩效应,需系统性优化 [34]
LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了
机器之心· 2025-05-28 16:09
大模型强化学习有效性研究 - 核心观点:虚假奖励(随机/错误信号)在Qwen-Math模型上能显著提升数学推理能力,但对其他模型无效,挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现 虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%,错误奖励提升25%,接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%,但损害Llama3和OLMo2性能(分别降低7 3%和5 3%)[23] 模型特异性 - 虚假奖励仅对Qwen系列有效:Qwen-Math-7B代码推理频率达65%,RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益,甚至出现性能下降[17][23] 机制分析 预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力(Python代码生成频率与性能强相关)[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应",使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时,单问题性能提升55%(虚假奖励)至60 2%(真实奖励)[36] - 模型总增益:Qwen2 5-Math-7B提升23 5%,1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型,结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证,并优先分析预训练获得的推理策略[50]
领域驱动的 RAG:基于分布式所有权构建精准的企业知识系统
搜狐财经· 2025-05-22 21:37
公司背景与挑战 - 公司在银行技术领域拥有超过30年行业经验,是领军供应商,通过战略性收购不断扩大业务 [1] - 公司面临庞大产品线中保持文档一致性与时效性的挑战,部分模块存在文档不清晰或内容过时的问题 [1] - 领域专家的宝贵专业知识分散且孤立,难以被系统地整合和获取 [1] RAG技术的探索与应用 - 公司探索使用检索增强生成(RAG)技术来提升事实查找的准确性和效率 [2] - RAG系统能够访问庞大的数据源,提供准确且高效的答案,支持多种语言 [2] - 目前基于大语言模型(LLM)的技术存在准确度低和模型容易出现"幻觉"的问题 [2] - 公司将AI定义为咨询工具,顾问负责过滤、验证和修改AI生成的输出 [3] 知识所有权与领域专家 - 公司重新分配销售工程团队对RAG实施的所有权,指定专门的领域所有者来负责监督RAG系统的集成和微调 [3] - 领域所有者的任务是确保RAG系统能够无缝对接其团队的独特需求,同时保证响应的准确性 [3] - 领域专家负责设计、测试和优化系统提示词,以确保RAG系统能够准确理解查询 [4] 元数据策略 - 公司采用基于元数据的方法来生成RAG文档,领域专家评审和编辑大模型的输出内容 [5][6] - 元数据包含领域常用的关键词,如三字母缩写、内部项目名称或旧名称 [6] - 元数据是RAG应用中组织和提供上下文信息的核心,帮助用户理解系统响应的范围和背景 [6] RAG系统的实现与架构 - 公司使用Flask构建了一个标准的Web应用,具备身份验证机制、错误处理能力和响应式用户界面 [10] - RAG应用基于分布式RAG系统,由各领域所有者管理专属的知识模型 [10] - 知识模型由四个核心组成部分构成:文档的向量存储、元数据、系统提示词和UML图 [10] 查询路径与UML增强 - 公司实现了三种查询路径:自动选择模式、手动选择模式和全部搜索模式 [13][14] - 公司整合了UML图可视化功能,用户可以通过交互式图表探索组件之间的关系 [16] - UML文件包含了描述性文本属性,成为大语言模型有价值的输入来源 [16] 性能评估与关键发现 - 分类器准确率为81.7%,响应精确度(分类模型)为97.4%,响应精确度(所有模型)为83.8% [22] - 专家引导的答案恢复率为63.4%,表明人类专家在复杂问答系统中的重要性 [23][26] - 专门模型优于全面查询,分类质量对答案质量有显著影响 [24] 结论与展望 - 提升分类器的准确性能够显著提高答案质量,建议采用混合策略 [28] - 公司通过分布式所有权模型、基于元数据的查询路由和增强的UML知识库,打造了一个高效的知识管理系统 [29] - 初步结果令人振奋,销售工程师和领域专家对系统的反馈积极 [29]
中金 | 大模型系列(3):主动投研LLM应用手册
中金点睛· 2025-05-16 07:32
核心观点 - 大语言模型(LLM)在主动投资领域具有变革性潜力,能够解决信息过载问题,提升投研效率和深度 [1][8] - LLM在信息获取与处理、深度分析与挖掘、策略生成与验证三个核心环节展现出强大应用价值 [3][4][5] - 人机协作是LLM在主动投资领域最现实且最具价值的应用模式,需要投研人员掌握Prompt Engineering等新技能 [9][10] 信息获取与处理 - LLM能够自动化市场信息跟踪,实时抓取多源数据并生成结构化摘要,提升信息处理效率 [3][13] - 在分析师报告聚合与对比方面,LLM可自动解析不同格式研报,提取关键信息并识别市场共识与分歧点 [3][29][30] - 对于上市公司业绩电话会纪要,LLM能快速处理会议内容,提取财务更新、战略重点等关键信息 [3][31][32] 深度分析与挖掘 - LLM能够量化文本情绪,识别细微情感变化,并绘制情绪变化曲线,为投资决策提供独特视角 [4][38] - 在组合分析与风险识别方面,LLM可提供基于实时事件和非结构化信息的风险分析,增强风险管理前瞻性 [4][39] - LLM能够分析组合持仓相关的重大新闻、行业动态等文本信息,为传统量化归因模型提供补充解释 [4] 策略生成与验证 - LLM在基本面因子挖掘方面具有思路广度、逻辑自洽和高度可定制化三大优势 [5][45] - LLM能显著降低策略回测门槛,将自然语言描述的投资策略自动转化为可执行代码 [5][46] - 通过自然语言到代码的转换,LLM加速了投资方法的验证与优化过程 [5] 应用前景 - LLM适合执行大规模数据处理和初步分析,而人类在目标设定、逻辑构建等方面具有优势 [6] - 构建高效的人机协作模式是LLM大规模成功应用的前提 [6] - 投研人员需要发展Prompt Engineering等新能力来充分利用LLM的潜力 [9][10]
一个极具争议的开源项目,「微信克隆人」火了!
菜鸟教程· 2025-05-15 16:33
WeClone项目核心功能 - 支持通过微信聊天记录微调大语言模型(LLM),捕捉用户语言习惯和表达方式,基于LoRA框架支持0.5B-7B规模模型如ChatGLM3-6B、Qwen2.5-7B等 [12] - 模型训练需约16GB显存,满足小样本低资源场景,训练效率高 [13] - 语音克隆模块通过0.5B参数模型和5秒语音样本实现95%相似度的声音克隆,基于Tacotron或WavLM模型 [15] - 支持多平台部署至微信/QQ/Telegram等,通过AstrBot框架实现实时对话 [16] 技术实现路径 - **数据预处理**:微信CSV/SQLite转为JSON格式,清洗敏感信息并保留时间戳,提供禁用词过滤功能 [20][27] - **模型微调**:采用ChatGLM3-6B基础模型,LoRA框架减少可训练参数,支持单机/多卡分布式训练 [20][21][36] - **部署方案**:FastAPI/Flask打包模型,支持GPU/CPU混合部署,自定义参数配置 [22][37] 应用场景 - 个人助理定制:自动回复消息、处理邮件等事务 [17] - 内容创作:生成特定风格文本如推文/脚本,支持多账号运营 [17] - 数字永生:创建个人或他人的永久数字分身 [18] 安装与训练流程 - 环境依赖Python 3.9,推荐使用uv管理环境,需安装16GB显存GPU [23][24] - 数据准备需通过PyWxDump解密微信数据库,导出CSV至指定目录 [26] - 训练参数可调整batch_size/epochs等,单卡训练示例loss值3.5(2万条数据) [34][36] - 推理支持浏览器demo或API接口测试,部署需配置AstrBot服务 [37][40] 模型获取 - 优先从Hugging Face下载ChatGLM3模型,备选魔搭社区需替换modeling_chatglm.py文件 [29][32]
高盛:中国数据中心 - 2025 年第一季度展望 - 增长前景不变;估值调整后仍建议买入万国数据(GDS)和网宿科技(VNET)
高盛· 2025-05-13 13:39
报告行业投资评级 - 维持对 GDS ADR/H 股的买入评级,12 个月目标价为 42 美元/41 港元,有 65%/61%的上涨空间;维持对 VNET 的买入评级,12 个月目标价为 13 美元,有 118%的上涨空间;对 Sinnet 维持卖出评级,12 个月目标价为 10.5 元人民币,有 28%的下跌空间 [1][8] 报告的核心观点 - 预计中国数据中心行业整体利用率将从 2024 年的约 60%提高到 2026 年的 70%以上,但供应紧张和供应过剩并存 [20] - 国内芯片和大语言模型/云的最新发展将在中期带来更可持续的批发数据中心需求,并在短期内扭转零售数据中心需求 [37] - GDS 和 VNET 的最新融资进展使其有足够现金满足 2025 年资本支出需求 [7] - 预计 GDS 和 VNET 一季度营收和 EBITDA 与市场共识数据基本一致,并维持全年营收、EBITDA 和资本支出指引不变 [1][59] 根据相关目录分别进行总结 1. 中国数据中心最新供需动态 - 预计行业整体利用率从 2024 年的约 60%提高到 2026 年的 70%以上,2024 - 2027 年需求复合年增长率为 21%,供应复合年增长率为 14% [20][22][23] - 供应紧张和供应过剩并存,包括低质量零售数据中心利用率低、AI 适用的批发数据中心供应有限、分散计算能力过剩以及国产芯片暂时未充分利用等问题 [36] 2. 人工智能最新发展对中国数据中心的影响 - 美国人工智能法规动态,对中国大陆数据中心无增量影响,对海外数据中心需关注新监管动态 [37] - 客户可能增加国产芯片采购以满足 AI 需求,国内芯片和基础设施的增加将满足云超大规模企业的 AI 投资需求并推动数据中心需求 [37][38] - 中国大语言模型发展迅速,AI 推理需求贡献大幅增加,将带来更可持续的批发数据中心需求和零售数据中心需求的潜在扭转 [41] 3. 最新融资进展及海外融资预期 - GDS 完成 ABS 发行并上市,公共 REIT 待进一步反馈,融资使其有 43 亿元人民币现金满足 2025 年资本支出需求 [51][50] - VNET 完成预 REIT 项目,私人 REIT(ABS)项目获批,发行 4.3 亿美元可转换优先票据,预计未来 1 - 2 年以国内银行贷款为主要融资方式,有 100 - 120 亿元人民币现金满足 2025 年资本支出需求 [55][50] 4. GDS/VNET 即将公布的 2025 年第一季度业绩关注点 - 预计 GDS 和 VNET 一季度营收和 EBITDA 与市场共识数据基本一致,并维持全年营收、EBITDA 和资本支出指引不变 [1][59] - 关注过去几个月的新订单获取情况、数据中心入驻率、管理层对需求、下游芯片供应/国产芯片能力和扩张计划的展望,以及 DayOne 的扩张进展 [2][59] 5. 各公司具体情况 GDS Holdings - 预计 2025 年第一季度营收同比增长 16%至 28 亿元人民币,调整后 EBITDA 同比增长 18%至 13 亿元人民币;全年营收 115 亿元人民币,调整后 EBITDA 57 亿元人民币 [60] - 上调 2025 - 2027 年营收和 EBITDA 预测,预计 2025 年利用率达到 76%,净债务/调整后 EBITDA 比率到 2028 年降至 5.2 倍 [65][70] - 12 个月目标价上调至 42 美元/41 港元,基于 SOTP 估值,维持买入评级 [66] VNET Group - 预计 2025 年第一季度营收同比增长 18%至 22 亿元人民币,调整后 EBITDA 同比增长 13%至 6.1 亿元人民币;全年营收 93 亿元人民币,调整后 EBITDA 28 亿元人民币 [61] - 维持营收/调整后 EBITDA 预测基本不变,12 个月目标价调整为 13 美元,基于 12 倍 2026 年 EBITDA 的目标 EV/EBITDA 倍数,维持买入评级 [83] Sinnet Technology - 2025 年第一季度营收同比下降 7%至 18.3 亿元人民币,净利润同比下降 58%至 5900 万元人民币 [62] - 下调 2025 - 2027 年营收和净利润预测,12 个月目标价下调至 10.5 元人民币,维持卖出评级 [89][90]
AI也需要"记笔记":Karpathy从Claude 1.6万字提示词中看到的未来
歸藏的AI工具箱· 2025-05-12 16:28
系统提示词对比分析 - Claude的系统提示词长达16,739个单词,远高于OpenAI的ChatGPT中o4-mini系统提示的2,218个单词(仅为Claude的13%)[2][3] - Claude的提示词包含大量非结构化修改痕迹,疑似针对热点事件或问题修复的临时补丁,维护复杂度高[5] - 提示词中工具定义占比最高,详细规定了14个MCP工具的使用规范(如谷歌Drive搜索说明超1700字),其次是用户偏好和风格指引[8] 大语言模型学习范式革新 - 当前LLM主要依赖预训练(获取广泛知识)和微调(优化行为习惯),均需调整模型参数[9] - Karpathy提出"系统提示学习"新范式:类比人类通过显式笔记总结经验,而非直接改写大脑参数[10] - 理想状态下模型应自动生成/优化提示词,但当前Claude提示词仍完全由人工编写,效率低下[10][18] 系统提示学习的潜在价值 - 优势包括:更高维的数据利用(通过显式复盘吸收反馈)、更强的任务泛化能力[19] - 可能解决LLM现存痛点:如《记忆碎片》式依赖参数记忆,缺乏外部备忘录机制[12] - 需攻克技术难点:自动编辑提示词算法、提示编辑系统的自学习机制、显式知识向参数习惯的转化[20] 提示工程实践启示 - 结构化指令效果更优:Claude提示词使用列表/格式/示例,明确工具调用规则和用户交互边界[8][15] - 精准指令胜于模糊表达,需具体说明需求与限制条件(如知识截止日期、诗歌创作规范)[8][14] - 提示工程本质是沟通技巧延伸,非高深技术,普通用户可通过学习Claude提示词提升效果[16][17] 行业资源链接 - Karpathy推文探讨系统提示学习[21] - 第三方网页解析Claude提示词内容与结构[21]
马来西亚,下一个全球数据中心霸主?
财富FORTUNE· 2025-05-09 21:03
文章核心观点 - 马来西亚柔佛州正经历由全球人工智能算力需求驱动的数据中心建设狂潮 有望在五年内成为全球最大的数据中心走廊 但其发展面临水电资源紧张等本地制约 且对当地经济转型的长期拉动效果尚不明确 [1][2][3][9][17] 柔佛州数据中心建设现状与规模 - 柔佛州已成为全球数据中心投资最热门目的地之一 马来西亚2023年数据中心投资额突破100亿美元 2024年实现三倍跃升 [2] - 柔佛州运营中和在建的数据中心已超过40座 较2022年的十余座实现数倍增长 [2] - 以供电能力衡量 柔佛州数据中心总容量从三年前的10兆瓦飙升至2024年的逾1,500兆瓦 [2] - 若建设持续 柔佛州有望在五年内超越美国北弗吉尼亚 成为全球最大的数据中心走廊 [3] 驱动因素:新加坡资源瓶颈与全球AI算力需求 - 新加坡因数据中心消耗其7%的电力于2019年叫停新建项目 促使投资转向土地与能源成本更低的马来西亚柔佛州 [1] - ChatGPT问世引爆全球AI基础设施需求 进一步推动资本涌入马来西亚 [2] - 大语言模型训练对延迟不敏感 企业优先考虑运营效率 使得远离开发地的柔佛州具备全球竞争力 [7] 主要参与方与投资项目 - 科技巨头与专业运营商齐头并进 包括英伟达、微软、Alphabet、甲骨文以及Equinix、NTT Data、万国数据等 均宣布了数十亿美元级别的投资计划 [3] - 普平数据集团在柔佛州启动总投资15亿美元、容量150兆瓦的数据中心首期工程 并计划追加建设容量200兆瓦的二期项目 [3] - 谷歌在马来西亚的首个数据中心已正式启用 [5] 政府政策支持 - 马来西亚总理通过税收减免、审批流程简化等措施 旨在将国家打造为全球人工智能中心 [8] - 马来西亚国家能源有限公司推出“绿色通道计划” 将数据中心并入电网的时间从三年多缩短至12个月 [8] - 柔佛州与新加坡签署“特别经济区”协议 涵盖税收减免、跨境贸易便利化及技术人才流动自由化等措施 [16] 面临的挑战与资源约束 - 马来西亚是全球水资源最紧张的国家之一 未来五年可能面临大范围缺水危机 数据中心建设加剧了水资源压力 [9] - 电力需求巨大 一个40-50兆瓦的中型数据中心年耗电量可满足12.5万户家庭用电 一个500兆瓦的超算中心年耗电量超过柔佛州新山市25万户家庭的总用电量 [9] - 地处赤道 数据中心的冷却能耗远高于气候寒冷的北半球国家 [9] - 当地市长担忧投资过热可能牺牲本地民众的基本生活需求 [9] - 2024年已有数个数据中心项目因能效和可持续性不达标被当局否决 [12] 潜在经济影响与不确定性 - 数据中心创造的直接就业岗位有限 大多数仅提供30至50个固定岗位 超大型设施或可创造200个岗位 难以显著提升柔佛州人均GDP(约1万美元 远低于新加坡的8.5万美元) [17] - 数据中心发展能否吸引芯片制造等上下游科技产业尚不确定 [17] - 存在全球数据中心泡沫化风险 若AI模型向低成本路径(如DeepSeek)范式重构 可能抑制对尖端芯片及大型数据中心的需求 [18] - 行业观点认为 高性价比的AI模型将加速应用普及 反而会催生对柔佛州等低成本AI训练中心的需求 [18] 基础设施与区域发展规划 - 柔佛州正开发大型数字产业园区 如占地700英亩的仕年纳科技园 内含普平数据、Yondr Group(300兆瓦)及三井物产(配套太阳能发电场)的项目 [13] - 仕年纳科技园正进行重大扩建 包括640英亩的二期项目及规划中占地7,000英亩的综合新城 [15] - 规划建设由扎哈·哈迪德建筑事务所设计的“探索之城” 旨在深度融合数字技术与可持续生活理念 [15] - 数据中心电力需求激增可能加速马来西亚向可再生能源转型 可再生能源发电占比预计从2020年的4%提升至今年的30% 政府目标2050年达到70% [12]