Workflow
大语言模型(LLM)
icon
搜索文档
搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究
量子位· 2025-05-29 09:08
大语言模型搜索智能体效率优化 - 大语言模型驱动的搜索智能体通过动态拆解问题、交错执行推理和检索来解决复杂任务,展现强大能力 [1] - 深度交互存在显著效率痛点,包括检索慢、不准等问题拖慢整体流程 [2][3] - SearchAgent-X框架实现吞吐量提升1.3-3.4倍,延迟降至1/1.7-1/5,且不牺牲答案质量 [3] 检索效率瓶颈分析 - 检索精度存在非单调关系:过低精度导致更多轮次检索,过高精度则计算资源消耗过大 [5][6] - 研究表明系统吞吐量随近似检索精度先升后降,超过最佳点后检索成本反噬效率 [6] - 检索延迟微小增加可导致端到端延迟放大高达83倍,与KV-cache命中率骤降相关 [11] 延迟放大核心原因 - 不当调度导致55.9%的token被不必要重计算,因长任务KV-cache被短任务抢占 [12] - 异步检索与生成时间错位使25%序列经历检索停滞,错过调度批次 [13] SearchAgent-X优化机制 - 优先级感知调度动态排序请求,核心理念是"让最有价值的计算优先" [17][18] - 无停顿检索采用自适应提前终止策略,判断检索成熟度与LLM就绪状态 [19][20][22] 性能验证结果 - 离线推理吞吐量比基线高1.3-3.4倍,延迟降至20%-60% [27] - 在线推理完成请求量多1.5-3.5倍,高负载时达基线5.8倍 [27] - 六个数据集测试显示生成准确率与精确检索基线相当,部分数据集因扰动略有提升 [28][29] 技术组件贡献度 - 优先级调度使KV-cache命中率从0.07提升至0.51,延迟降低35.55% [30] - 无停顿检索进一步将命中率提升至0.65,微小时间节省显著影响端到端延迟 [31] 行业应用启示 - AI智能体需平衡工具性能与整体工作流匹配度,单一组件并非越高越好 [33] - 复杂系统中微小延迟和调度不当会产生雪崩效应,需系统性优化 [34]
LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了
机器之心· 2025-05-28 16:09
大模型强化学习有效性研究 - 核心观点:虚假奖励(随机/错误信号)在Qwen-Math模型上能显著提升数学推理能力,但对其他模型无效,挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现 虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%,错误奖励提升25%,接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%,但损害Llama3和OLMo2性能(分别降低7 3%和5 3%)[23] 模型特异性 - 虚假奖励仅对Qwen系列有效:Qwen-Math-7B代码推理频率达65%,RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益,甚至出现性能下降[17][23] 机制分析 预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力(Python代码生成频率与性能强相关)[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应",使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时,单问题性能提升55%(虚假奖励)至60 2%(真实奖励)[36] - 模型总增益:Qwen2 5-Math-7B提升23 5%,1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型,结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证,并优先分析预训练获得的推理策略[50]
领域驱动的 RAG:基于分布式所有权构建精准的企业知识系统
搜狐财经· 2025-05-22 21:37
公司背景与挑战 - 公司在银行技术领域拥有超过30年行业经验,是领军供应商,通过战略性收购不断扩大业务 [1] - 公司面临庞大产品线中保持文档一致性与时效性的挑战,部分模块存在文档不清晰或内容过时的问题 [1] - 领域专家的宝贵专业知识分散且孤立,难以被系统地整合和获取 [1] RAG技术的探索与应用 - 公司探索使用检索增强生成(RAG)技术来提升事实查找的准确性和效率 [2] - RAG系统能够访问庞大的数据源,提供准确且高效的答案,支持多种语言 [2] - 目前基于大语言模型(LLM)的技术存在准确度低和模型容易出现"幻觉"的问题 [2] - 公司将AI定义为咨询工具,顾问负责过滤、验证和修改AI生成的输出 [3] 知识所有权与领域专家 - 公司重新分配销售工程团队对RAG实施的所有权,指定专门的领域所有者来负责监督RAG系统的集成和微调 [3] - 领域所有者的任务是确保RAG系统能够无缝对接其团队的独特需求,同时保证响应的准确性 [3] - 领域专家负责设计、测试和优化系统提示词,以确保RAG系统能够准确理解查询 [4] 元数据策略 - 公司采用基于元数据的方法来生成RAG文档,领域专家评审和编辑大模型的输出内容 [5][6] - 元数据包含领域常用的关键词,如三字母缩写、内部项目名称或旧名称 [6] - 元数据是RAG应用中组织和提供上下文信息的核心,帮助用户理解系统响应的范围和背景 [6] RAG系统的实现与架构 - 公司使用Flask构建了一个标准的Web应用,具备身份验证机制、错误处理能力和响应式用户界面 [10] - RAG应用基于分布式RAG系统,由各领域所有者管理专属的知识模型 [10] - 知识模型由四个核心组成部分构成:文档的向量存储、元数据、系统提示词和UML图 [10] 查询路径与UML增强 - 公司实现了三种查询路径:自动选择模式、手动选择模式和全部搜索模式 [13][14] - 公司整合了UML图可视化功能,用户可以通过交互式图表探索组件之间的关系 [16] - UML文件包含了描述性文本属性,成为大语言模型有价值的输入来源 [16] 性能评估与关键发现 - 分类器准确率为81.7%,响应精确度(分类模型)为97.4%,响应精确度(所有模型)为83.8% [22] - 专家引导的答案恢复率为63.4%,表明人类专家在复杂问答系统中的重要性 [23][26] - 专门模型优于全面查询,分类质量对答案质量有显著影响 [24] 结论与展望 - 提升分类器的准确性能够显著提高答案质量,建议采用混合策略 [28] - 公司通过分布式所有权模型、基于元数据的查询路由和增强的UML知识库,打造了一个高效的知识管理系统 [29] - 初步结果令人振奋,销售工程师和领域专家对系统的反馈积极 [29]
中金 | 大模型系列(3):主动投研LLM应用手册
中金点睛· 2025-05-16 07:32
核心观点 - 大语言模型(LLM)在主动投资领域具有变革性潜力,能够解决信息过载问题,提升投研效率和深度 [1][8] - LLM在信息获取与处理、深度分析与挖掘、策略生成与验证三个核心环节展现出强大应用价值 [3][4][5] - 人机协作是LLM在主动投资领域最现实且最具价值的应用模式,需要投研人员掌握Prompt Engineering等新技能 [9][10] 信息获取与处理 - LLM能够自动化市场信息跟踪,实时抓取多源数据并生成结构化摘要,提升信息处理效率 [3][13] - 在分析师报告聚合与对比方面,LLM可自动解析不同格式研报,提取关键信息并识别市场共识与分歧点 [3][29][30] - 对于上市公司业绩电话会纪要,LLM能快速处理会议内容,提取财务更新、战略重点等关键信息 [3][31][32] 深度分析与挖掘 - LLM能够量化文本情绪,识别细微情感变化,并绘制情绪变化曲线,为投资决策提供独特视角 [4][38] - 在组合分析与风险识别方面,LLM可提供基于实时事件和非结构化信息的风险分析,增强风险管理前瞻性 [4][39] - LLM能够分析组合持仓相关的重大新闻、行业动态等文本信息,为传统量化归因模型提供补充解释 [4] 策略生成与验证 - LLM在基本面因子挖掘方面具有思路广度、逻辑自洽和高度可定制化三大优势 [5][45] - LLM能显著降低策略回测门槛,将自然语言描述的投资策略自动转化为可执行代码 [5][46] - 通过自然语言到代码的转换,LLM加速了投资方法的验证与优化过程 [5] 应用前景 - LLM适合执行大规模数据处理和初步分析,而人类在目标设定、逻辑构建等方面具有优势 [6] - 构建高效的人机协作模式是LLM大规模成功应用的前提 [6] - 投研人员需要发展Prompt Engineering等新能力来充分利用LLM的潜力 [9][10]
一个极具争议的开源项目,「微信克隆人」火了!
菜鸟教程· 2025-05-15 16:33
WeClone项目核心功能 - 支持通过微信聊天记录微调大语言模型(LLM),捕捉用户语言习惯和表达方式,基于LoRA框架支持0.5B-7B规模模型如ChatGLM3-6B、Qwen2.5-7B等 [12] - 模型训练需约16GB显存,满足小样本低资源场景,训练效率高 [13] - 语音克隆模块通过0.5B参数模型和5秒语音样本实现95%相似度的声音克隆,基于Tacotron或WavLM模型 [15] - 支持多平台部署至微信/QQ/Telegram等,通过AstrBot框架实现实时对话 [16] 技术实现路径 - **数据预处理**:微信CSV/SQLite转为JSON格式,清洗敏感信息并保留时间戳,提供禁用词过滤功能 [20][27] - **模型微调**:采用ChatGLM3-6B基础模型,LoRA框架减少可训练参数,支持单机/多卡分布式训练 [20][21][36] - **部署方案**:FastAPI/Flask打包模型,支持GPU/CPU混合部署,自定义参数配置 [22][37] 应用场景 - 个人助理定制:自动回复消息、处理邮件等事务 [17] - 内容创作:生成特定风格文本如推文/脚本,支持多账号运营 [17] - 数字永生:创建个人或他人的永久数字分身 [18] 安装与训练流程 - 环境依赖Python 3.9,推荐使用uv管理环境,需安装16GB显存GPU [23][24] - 数据准备需通过PyWxDump解密微信数据库,导出CSV至指定目录 [26] - 训练参数可调整batch_size/epochs等,单卡训练示例loss值3.5(2万条数据) [34][36] - 推理支持浏览器demo或API接口测试,部署需配置AstrBot服务 [37][40] 模型获取 - 优先从Hugging Face下载ChatGLM3模型,备选魔搭社区需替换modeling_chatglm.py文件 [29][32]
高盛:中国数据中心 - 2025 年第一季度展望 - 增长前景不变;估值调整后仍建议买入万国数据(GDS)和网宿科技(VNET)
高盛· 2025-05-13 13:39
报告行业投资评级 - 维持对 GDS ADR/H 股的买入评级,12 个月目标价为 42 美元/41 港元,有 65%/61%的上涨空间;维持对 VNET 的买入评级,12 个月目标价为 13 美元,有 118%的上涨空间;对 Sinnet 维持卖出评级,12 个月目标价为 10.5 元人民币,有 28%的下跌空间 [1][8] 报告的核心观点 - 预计中国数据中心行业整体利用率将从 2024 年的约 60%提高到 2026 年的 70%以上,但供应紧张和供应过剩并存 [20] - 国内芯片和大语言模型/云的最新发展将在中期带来更可持续的批发数据中心需求,并在短期内扭转零售数据中心需求 [37] - GDS 和 VNET 的最新融资进展使其有足够现金满足 2025 年资本支出需求 [7] - 预计 GDS 和 VNET 一季度营收和 EBITDA 与市场共识数据基本一致,并维持全年营收、EBITDA 和资本支出指引不变 [1][59] 根据相关目录分别进行总结 1. 中国数据中心最新供需动态 - 预计行业整体利用率从 2024 年的约 60%提高到 2026 年的 70%以上,2024 - 2027 年需求复合年增长率为 21%,供应复合年增长率为 14% [20][22][23] - 供应紧张和供应过剩并存,包括低质量零售数据中心利用率低、AI 适用的批发数据中心供应有限、分散计算能力过剩以及国产芯片暂时未充分利用等问题 [36] 2. 人工智能最新发展对中国数据中心的影响 - 美国人工智能法规动态,对中国大陆数据中心无增量影响,对海外数据中心需关注新监管动态 [37] - 客户可能增加国产芯片采购以满足 AI 需求,国内芯片和基础设施的增加将满足云超大规模企业的 AI 投资需求并推动数据中心需求 [37][38] - 中国大语言模型发展迅速,AI 推理需求贡献大幅增加,将带来更可持续的批发数据中心需求和零售数据中心需求的潜在扭转 [41] 3. 最新融资进展及海外融资预期 - GDS 完成 ABS 发行并上市,公共 REIT 待进一步反馈,融资使其有 43 亿元人民币现金满足 2025 年资本支出需求 [51][50] - VNET 完成预 REIT 项目,私人 REIT(ABS)项目获批,发行 4.3 亿美元可转换优先票据,预计未来 1 - 2 年以国内银行贷款为主要融资方式,有 100 - 120 亿元人民币现金满足 2025 年资本支出需求 [55][50] 4. GDS/VNET 即将公布的 2025 年第一季度业绩关注点 - 预计 GDS 和 VNET 一季度营收和 EBITDA 与市场共识数据基本一致,并维持全年营收、EBITDA 和资本支出指引不变 [1][59] - 关注过去几个月的新订单获取情况、数据中心入驻率、管理层对需求、下游芯片供应/国产芯片能力和扩张计划的展望,以及 DayOne 的扩张进展 [2][59] 5. 各公司具体情况 GDS Holdings - 预计 2025 年第一季度营收同比增长 16%至 28 亿元人民币,调整后 EBITDA 同比增长 18%至 13 亿元人民币;全年营收 115 亿元人民币,调整后 EBITDA 57 亿元人民币 [60] - 上调 2025 - 2027 年营收和 EBITDA 预测,预计 2025 年利用率达到 76%,净债务/调整后 EBITDA 比率到 2028 年降至 5.2 倍 [65][70] - 12 个月目标价上调至 42 美元/41 港元,基于 SOTP 估值,维持买入评级 [66] VNET Group - 预计 2025 年第一季度营收同比增长 18%至 22 亿元人民币,调整后 EBITDA 同比增长 13%至 6.1 亿元人民币;全年营收 93 亿元人民币,调整后 EBITDA 28 亿元人民币 [61] - 维持营收/调整后 EBITDA 预测基本不变,12 个月目标价调整为 13 美元,基于 12 倍 2026 年 EBITDA 的目标 EV/EBITDA 倍数,维持买入评级 [83] Sinnet Technology - 2025 年第一季度营收同比下降 7%至 18.3 亿元人民币,净利润同比下降 58%至 5900 万元人民币 [62] - 下调 2025 - 2027 年营收和净利润预测,12 个月目标价下调至 10.5 元人民币,维持卖出评级 [89][90]
AI也需要"记笔记":Karpathy从Claude 1.6万字提示词中看到的未来
歸藏的AI工具箱· 2025-05-12 16:28
系统提示词对比分析 - Claude的系统提示词长达16,739个单词,远高于OpenAI的ChatGPT中o4-mini系统提示的2,218个单词(仅为Claude的13%)[2][3] - Claude的提示词包含大量非结构化修改痕迹,疑似针对热点事件或问题修复的临时补丁,维护复杂度高[5] - 提示词中工具定义占比最高,详细规定了14个MCP工具的使用规范(如谷歌Drive搜索说明超1700字),其次是用户偏好和风格指引[8] 大语言模型学习范式革新 - 当前LLM主要依赖预训练(获取广泛知识)和微调(优化行为习惯),均需调整模型参数[9] - Karpathy提出"系统提示学习"新范式:类比人类通过显式笔记总结经验,而非直接改写大脑参数[10] - 理想状态下模型应自动生成/优化提示词,但当前Claude提示词仍完全由人工编写,效率低下[10][18] 系统提示学习的潜在价值 - 优势包括:更高维的数据利用(通过显式复盘吸收反馈)、更强的任务泛化能力[19] - 可能解决LLM现存痛点:如《记忆碎片》式依赖参数记忆,缺乏外部备忘录机制[12] - 需攻克技术难点:自动编辑提示词算法、提示编辑系统的自学习机制、显式知识向参数习惯的转化[20] 提示工程实践启示 - 结构化指令效果更优:Claude提示词使用列表/格式/示例,明确工具调用规则和用户交互边界[8][15] - 精准指令胜于模糊表达,需具体说明需求与限制条件(如知识截止日期、诗歌创作规范)[8][14] - 提示工程本质是沟通技巧延伸,非高深技术,普通用户可通过学习Claude提示词提升效果[16][17] 行业资源链接 - Karpathy推文探讨系统提示学习[21] - 第三方网页解析Claude提示词内容与结构[21]
马来西亚,下一个全球数据中心霸主?
财富FORTUNE· 2025-05-09 21:03
马来西亚柔佛州即将建成的"探索新城"办公楼的内部设计效果图。图片来源:Courtesy of ZA 19世纪40年代,新加坡的华人先民横渡柔佛海峡(Johor Strait),在马来西亚柔佛州的原始丛林中披荆 斩棘,建立起绵延不绝的黑胡椒种植园。20世纪的英国殖民时期,这些胡椒农场逐渐被广袤的橡胶林与 油棕榈园所取代。如今,在同一片土地上,柔佛州正在悉心培育数字时代的新型经济作物——为缓解全 球算力饥渴而建设的人工智能数据中心群。 柔佛的数据中心建设狂潮,与当年改种胡椒的产业转型如出一辙,根源都在新加坡的资源瓶颈。这个城 邦国家虽然贵为东南亚的数字中枢,却连水电供给都依赖进口。2019年,因为庞然巨物般的数据中心不 仅消耗大量水资源,更消耗了新加坡7%的电力,政府不得不叫停新建项目。投资方与运营商旋即跨海 而来,在土地成本优势显著、能源供给充沛,以及矢志助推数字经济发展的马来西亚落子布局。 而柔佛跻身数据中心重镇的另一关键推力,在于全球算力争夺战的白热化。尽管新加坡在2022年1月已 经放开数据中心禁令,但岁末ChatGPT的震撼问世引爆全球人工智能基础设施需求,也在马来西亚掀起 新一轮的投资狂潮。房地产咨询 ...
苹果谷歌“闹分手”?iPhone搜索或转投AI,高管揭秘
36氪· 2025-05-09 07:59
苹果与谷歌合作裂痕 - 苹果正在积极考虑彻底改造Safari浏览器 重点转向AI驱动的搜索引擎 [1] - 苹果与谷歌持续二十年的战略合作关系出现裂痕 可能被迫解除价值约200亿美元/年的默认搜索引擎协议 [1][4] - 苹果互联网软件和服务部门高级副总裁埃迪·库在美国司法部起诉谷歌母公司Alphabet的案件中作证披露相关信息 [1] AI对传统搜索引擎的冲击 - Safari搜索量上月首次下滑 因AI工具吸引了部分用户 [2] - OpenAI Perplexity AI和Anthropic等AI搜索提供商可能取代谷歌搜索等传统搜索引擎 [2] - 苹果未来会将这些AI搜索选项引入Safari 已与Perplexity进行磋商 [2] - 2024年第四季度谷歌在全球搜索市场的份额自2015年以来首次跌破90% [10] - ChatGPT已有每周5亿活跃用户 25年3月网站访问量达39亿次 [10] 苹果的战略调整 - 苹果在iOS 18 Apple Intelligence组件中加入ChatGPT之前曾与谷歌进行竞标 但最终选择OpenAI [7] - 苹果目前已在Siri数字助理中提供ChatGPT选项 预计今年晚些时候加入谷歌Gemini [9] - 与OpenAI的协议允许苹果在操作系统中添加其他AI服务商 包括苹果自研产品 [9] - 苹果评估了Anthropic Perplexity 中国深度求索及马斯克xAI的Grok等AI服务商 [9] 财务影响 - Alphabet股价周三暴跌7.3% 创2月以来最大跌幅 苹果股价也下跌1.1% [4] - 苹果服务部门3月季度创下266亿美元收入纪录 但搜索合作破裂可能导致收入损失 [7] - 埃迪·库坦言因可能失去谷歌协议分成收入而失眠 认为当前协议仍是财务条件最优惠的安排 [7] 行业变革趋势 - 埃迪·库认为技术变革速度之快 可能几年后人们使用的设备都将不同 [8] - 十年后可能不再需要iPhone AI为新入局者创造机遇 [8] - AI公司需改进搜索索引才能提升竞争力 但其显著优越的其他功能会吸引用户转向 [9] - 搜索引擎的AI转向势不可挡 新入局者正以全新方式解决问题 [10]
GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”
量子位· 2025-04-30 12:10
医疗大模型知识覆盖度评估框架MedKGEval - 腾讯优图实验室天衍研究中心提出MedKGEval框架,首次通过医疗知识图谱(KG)的多层级评估系统量化GPT-4o等主流模型的医学知识覆盖度,该研究被WWW 2025会议录用为口头报告[1][2] - 当前主流评估体系(如Prompt-CBLUE、Medbench)存在三大局限:罕见病症覆盖不足、难以量化知识储量、无法捕捉医学概念间复杂关联[5] - MedKGEval创新性设计三级评估体系:实体层(医学概念理解)、关系层(医学关联区分)、子图层(结构化推理),通过真伪判断和多选题形式实现任务导向与知识导向的双重评测[6][7][11] 评估任务架构设计 - 实体层面包含3项任务:实体类型标注(ET)、实体聚类(EC)、实体消歧(ED),验证模型对"糖尿病"等医学概念的分类与等价性判断能力[11] - 关系层面包含3项任务:关系类型标注(RT)、事实核验(FC)、关系预测(RP),检验模型对"并发症"等医学关联的认知[11] - 子图层面包含3项任务:错误识别(ER)、子图推理(R1/R2),评估模型在多跳关系(如"高血压→并发症→脑出血→影像检查→CT")中的结构化推理能力[11] 实验数据与模型表现 - 采用中文医疗知识图谱CPubMedKG和CMeKG作为基准,评估11个LLM(含开源通用模型、医疗垂类模型、闭源模型)[15][16] - GPT-4o以70.65%平均准确率领先,参数量翻倍可使同架构模型性能提升3-5%,通用模型整体表现优于医疗垂类模型[16] - 知识覆盖度方面,GPT-4o在CPubMedKG上覆盖65.66%实体、55.60%关系、62.31%三元组,Qwen2-7B和Baichuan2-13B分别达到61.95%和62.05%的三元组覆盖率[17][18] 关键发现与应用价值 - 模型对高关联度实体(如糖尿病)和高频关系(如鉴别诊断)表现更优,例如GPT-4o在"超声"实体相关问答中正确率达94.16%[19][24] - 框架可精准定位知识缺陷,如WiNGPT在"肺结核"实体、Baichuan2-13B在"相关(转换)"关系中存在明显短板,建议针对性补充专项数据优化[20][25] - 该研究为医疗领域LLM的可靠性验证提供量化依据,代码已开源(GitHub地址)[21][22][23]