大型语言模型

搜索文档
ACL首届博士论文奖公布,华人学者李曼玲获荣誉提名
机器之心· 2025-07-29 17:58
编辑:张倩、冷猫 昨晚,自然语言处理顶会 ACL 公布了今年的一个特别奖项 —— 计算语言学博士论文奖。 | 机器之心报道 | | --- | 这个奖项是今年新增的,获奖者是来自美国华盛顿大学的 Sewon Min。她的博士论文题为「Rethinking Data Use in Large Language Models(重新思考大型语言模型 中的数据使用)」。 ACL 大会官方表示,「Min 的论文对大型语言模型的行为和能力提供了关键见解,特别是在上下文学习(in context learning)方面。 其研究成果对当今自然语言处 理的核心产生了影响。 Sewon Min 本科毕业于首尔大学,2024 年在华盛顿大学拿到博士学位,现在在加州大学伯克利分校电气工程与计算机科学系(EECS)担任助理教授。Google Scholar 上的数据量显示,她的论文被引量已经过万。 | Sewon Min | | FOLLOW | | GET MY OWN PROFILE | | | --- | --- | --- | --- | --- | --- | | UC Berkeley EECS & Allen Inst ...
中银晨会聚焦-20250724
中银国际· 2025-07-24 09:57
报告核心观点 - 2025年7月24日的晨会聚焦报告涵盖多领域研究,包括7月金股组合、市场指数表现、行业表现,重点关注人形机器人、主动权益基金配置、AI算力产业链等方面,各领域呈现出不同的发展态势和投资机会 [1][3] 7月金股组合 - 7月金股组合包含滨江集团、顺丰控股、极兔速递 - W等10只股票 [1] 市场指数表现 - 上证综指收盘价3582.30,涨0.01%;深证成指收盘价11059.04,跌0.37%;沪深300收盘价4119.77,涨0.02%;中小100收盘价6849.74,跌0.46%;创业板指收盘价2310.67,跌0.01% [4] 行业表现(申万一级) - 非银金融、美容护理、家用电器等行业上涨,建筑材料、国防军工、机械设备等行业下跌 [5] 策略研究 - 人形机器人产业 - 2025年7月7 - 18日,人形机器人产业市场关注度显著提高,相关指数涨幅较好,易方达国证机器人产业ETF资金净流入,规模突破20亿元,年内增超10倍 [6] - 行情由订单、资本、意见领袖发言、产业、政策等多重因素驱动,如中国移动订单落地、智元收购股权、黄仁勋论断、特斯拉事件扰动缓解、工信部表态及地方政策支持等 [6][7] - 当前人形机器人进入催化密集区,受益于高低切需求,行情启动逻辑顺畅 [8] 金融工程 - 主动权益基金配置 - 2025Q2主动权益基金仓位中位数为90.63%,较上季度提升,处于历史高位 [3][9] - 板块配置上,TMT、港股和机械配置比例最高,港股、TMT、金融等板块超配,消费、周期等板块低配 [9] - 行业配置上,港股、电子、医药等行业配置比例较高,港股和电子配置比例近年攀升,食品饮料和电力设备及新能源走低 [10] - 宁德时代、美的集团等为前五大重仓股票,本期基金抱团度较上季度走低,在历史中枢附近 [10] 电子 - AI算力产业链 - 2025年AI产业链迎来闭环,步入业绩兑现期,先进AI infra平台将驱动产品迭代与供应链变革 [11] - 海外资本开支景气,推理需求增长,AI云侧基础设施建设是资本开支主要增量 [12] - 下一代AI infra新品加速演进,底层核心硬件供应链升级,GB300 NVL72性能跃升,英伟达下一代芯片架构或2026年推出 [12] - AI算力竞争引发PCB产业变革,高阶PCB产能供给或紧张,相关公司及配套材料有望受益 [13]
重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%
机器之心· 2025-07-22 16:59
核心观点 - GTA(Grouped-head latent Attention)是一种高效的大模型框架,通过共享注意力矩阵和压缩潜在值表示,显著提升模型性能与计算效率 [1] - GTA将计算量削减62.5%,KV缓存缩减70%,prefill和decode速度提升2倍,适用于长序列任务和边缘设备部署 [1] - 该技术由中国科学院自动化研究所、伦敦大学学院及香港科技大学(广州)联合研发,为大模型优化部署提供创新解决方案 [1] 大型语言模型效率困局 - Transformer架构虽推动NLP发展,但模型参数量激增导致传统多头注意力机制(MHA)弊端凸显 [3] - MHA存在计算冗余问题:每个注意力头独立计算查询/键/值向量,导致FLOPs呈平方级增长 [3] - 内存瓶颈显著:KV缓存规模随序列长度和注意力头数量快速膨胀,限制边缘设备部署能力 [3] - 推理延迟问题:高昂计算/内存需求导致实时应用体验下降,现有优化方案难以平衡性能与资源消耗 [4] GTA核心技术突破 分组共享注意力矩阵机制 - 将注意力头分组并共享统一注意力矩阵,减少重复计算(如16头MHA改为4组共享) [8] - 实验证明该设计可显著削减FLOPs,实现超长序列任务的推理加速 [10] 压缩潜在值表示技术 - 将所有注意力头的值向量压缩为低维潜在表示,配合WaLU非线性解码器动态生成完整向量 [12] - 在保留表达能力的同时,KV缓存规模缩减70%,突破边缘设备部署障碍 [14] 实验验证结果 160M参数模型表现 - 在2048/4096 token序列下,GTA2配置实现比MHA/GQA/MLA更低的评估损失(2.690 vs 2.696)和更优的Wikitext PPL(22.41 vs 23.03) [17] - KV缓存大小仅为MHA的12.5%(192维度 vs 1536维度) [17] 500M参数模型表现 - 2048 token序列中GTA4实现2.478评估损失,优于MHA的2.484,KV缓存为MHA的12.5%(320 vs 2560维度) [19] - 4096 token长序列任务中保持与MHA相当的评估损失(2.592),Wikitext PPL更优(16.96 vs 19.87) [19] 1B参数模型扩展性 - GTA-1B在50,000训练步中稳定收敛,KV缓存仅为GQA-1B的30% [20] - 微调后平均准确率达42.17,优于GQA-1B-SFT的40.64,自注意力计算成本低至37.5% [22] 效率评估 理论效率分析 - KV缓存尺寸和注意力计算量均实现数量级缩减,显著提升推理速度 [24] 实际硬件测试 - 在NVIDIA H100/A800、RTX 3060、Apple M2等平台测试中,GTA-1B预填充/解码时间全面优于GQA-1B [25][27] - 处理2k token长序列时性能优势更显著,缓存卸载场景下I/O效率提升明显 [29][30][31] 技术局限与未来方向 - 非线性解码器可能引入微小近似误差,需优化架构设计减少信息损失 [33] - 当前验证集中于NLP任务,需探索计算机视觉/多模态领域的适用性 [33] - 计划扩展至超大规模模型验证可扩展性,推动更广泛应用 [33]
黄仁勋,卖卖卖!身家超巴菲特
搜狐财经· 2025-07-12 12:13
公司市值与高管财富 - 英伟达最新市值达4 02万亿美元[1] - 公司CEO黄仁勋净资产1440亿美元 超过沃伦·巴菲特位列全球富豪榜第九[1] - 黄仁勋年内净资产增加294亿美元[2] 高管股票减持 - 黄仁勋7月累计减持60万股公司股票 价值约9600万美元[2] - 6月已减持45万股 2025年内计划总计减持600万股[3] - 减持行为依据10b5-1规则制定的交易计划执行[3] 行业地位与技术优势 - 英伟达成为历史上首家市值突破4万亿美元的公司[3] - 公司GPU产品广泛应用于AI训练 推理和大型语言模型部署[3] - 硬件被OpenAI 谷歌 Meta等科技巨头采用[3] 全球富豪榜情况 - 全球前十富豪中有7位来自科技行业[2] - 马斯克以3600亿美元净资产位居榜首[2] - 科技行业富豪年内财富波动显著 扎克伯格增加458亿美元 马斯克减少727亿美元[2]
美联储:全面召回?大型语言模型的宏观经济知识评价(英文版)
搜狐财经· 2025-07-08 10:02
大型语言模型宏观经济知识评估 - 研究聚焦Claude Sonnet 3 5模型对失业率 CPI等宏观经济变量的回忆能力 其中对二战以来失业率和CPI季度值的回忆较准确 但对实际GDP增长和工业生产增长等波动性较大的数据表现较差 [11] - 模型存在将GDP首次发布值与后续修订值混合的问题 这种跨数据版本的平滑现象阻碍其模拟实时预测和准确回顾经济状况 [14] - 即使被指示忽略未来信息 模型在构建特定日期估算时仍受未来参考期值影响 对历史分析和实时预测模拟构成挑战 [15] 数据发布日期回忆表现 - 模型能部分准确回忆历史数据发布日期 但存在几天误差 且对提示细节敏感 调整提示会减少某类误差但增加另一类误差 [16] - 综合主要经济指标来看 约20 2%的日子模型会错误认为某些重要数据已发布 限制了其在历史分析和实时预测中的可靠性 [16] - 模型预测表现与专业预测者调查相当甚至略好 但前瞻偏差问题使其预测可能受训练集中滞后数据影响 [16] 模型测试方法论 - 测试采用Anthropic Claude Sonnet 3 5模型 通过AWS Bedrock平台访问 模型无互联网搜索功能 仅依赖提示信息 [27] - 查询设计要求模型逐步推理并最终输出答案 通过次级"总结器"模型提取数值估计 经正则表达式解析 [28][29] - 为降低随机性影响 每个查询重复多次并取平均值 温度参数设为1 测试显示其对GDP估计结果影响有限 [35][36] 宏观经济变量回忆测试结果 - 模型对CPI通胀和失业率的回忆接近真实值 仅1990年前低通胀时期存在高估偏差 置信区间狭窄显示响应稳定性高 [44] - 对实际GDP增长和工业生产的回忆显著遗漏高频波动 但能捕捉商业周期变化 2020年疫情期间数据未纳入分析 [45] - 1990-2019年期间 CPI和失业率回忆精确度显著高于GDP和工业生产 后者高频波动被系统性忽略 [46]
选择合适的大型语言模型:Llama、Mistral 和 DeepSeek
36氪· 2025-06-30 13:34
大型语言模型(LLM)比较分析 1 计算要求 - Llama、Mistral和DeepSeek提供不同参数规模的模型(7B、13B至65-70B),参数数量直接影响每次推理所需的计算量(FLOPs)[2] - 7B模型每个token生成需约140亿FLOPs,70B模型则需约1400亿FLOPs,计算量相差10倍[2] - DeepSeek 67B模型与Llama 70B计算需求相当,每个token生成约1e11 FLOPs[2] 2 硬件需求 - 7B-13B模型可在单GPU运行(7B需15GB VRAM,13B需24GB VRAM),70B级模型需2-4个GPU或专用加速器[3][4] - 7B/8B模型适合消费级GPU(如NVIDIA 16GB显存),65B+模型权重达130-140GB需多GPU并行[3][4] - Mistral 7B因优化架构可在CPU边缘设备运行,适合离线场景[15] 3 内存管理 - FP16推理时7B模型占14-16GB内存,13B占26-30GB,65B+超130GB需多设备[5] - 微调需2-3倍模型内存,LoRA/QLoRA技术可将内存需求降至全量微调的1/10[6][7] - Mistral滑动窗口和DeepSeek MLA技术优化长上下文处理,降低KV缓存内存占用[8] 4 性能权衡 - 交互式应用(如聊天机器人)优先低延迟(7B模型每秒数十token),批处理任务侧重吞吐量(70B模型每秒数token)[10] - 动态批处理技术可平衡延迟与吞吐量,提升GPU利用率30%以上[11] - 小模型单请求响应更快,大模型通过硬件并行化实现更高精度[11] 5 生产部署 - 三大模型均兼容Hugging Face生态,支持Transformers/vLLM/TensorRT-LLM等框架[13][16] - 云部署方案包括AWS Bedrock(Mistral)、IBM watsonx.ai(8×7B混合模型)及A100/H100虚拟机[15] - 4位量化技术使7B模型可在高端CPU运行,Llama.cpp优化后支持手机端部署[15] 6 基准性能 - DeepSeek 8B在MMLU(78.1%)、GSM8K(85.5%)、HumanEval(71.1%)全面领先,数学/代码能力突出[18][21] - Llama-3-8B综合能力强(MMLU 68.4%,GSM8K 79.6%),适合通用场景[19][23] - Mistral 7B效率最优(MMLU 60.1%),推理速度比Llama-2-13B快30%[20][24] 7 技术演进 - 当前8B模型性能已超越早期30B模型,MMLU得分提升20个百分点[22] - 架构创新(滑动窗口/MLA)使小模型处理131k长上下文成为可能[8] - 训练技术突破(思路链提示/RLHF)推动小模型在数学/代码领域接近GPT-4水平[22]
俄罗斯联邦储蓄银行第一副首席执行官:俄罗斯联邦储蓄银行计划在不久的将来推出具有推理能力的大型语言模型。
快讯· 2025-06-18 16:06
俄罗斯联邦储蓄银行AI发展计划 - 公司计划在不久的将来推出具备推理能力的大型语言模型 [1]
AI成为数学家得力助手还要多久
科技日报· 2025-06-17 09:18
AI在数学领域的应用进展 - 美国国防高级研究计划局启动"指数性数学"计划 旨在开发提升数学研究效率的AI"合著者"系统 [1] - 新一代大型推理模型如OpenAI的o3和Anthropic的Claude 4 Thinking展现进步 在美国数学邀请赛中表现接近优秀高中生水平 [2] - 谷歌"深度思维"的AlphaProof系统结合语言模型与AlphaZero 取得与国际数学奥林匹克竞赛银牌得主相当的成绩 [2] - 谷歌AlphaEvolve模型在多个长期未解数学与计算难题上找到优于人类现有方案的解法 [2] AI当前在数学研究中的局限性 - 大型语言模型在FrontierMath测试中几乎集体"交白卷" 表明其面对全新高难度题目时能力不足 [3] - AI在解决"P vs NP"和"黎曼猜想"等重大数学难题时仍力不从心 竞赛题与真正数学研究存在差异 [2] - AI缺乏真正的创造力 能协助发现路径但无法实现真正的创新与突破 [8] AI处理数学问题的技术突破 - 加州理工学院团队开发"超级步骤"方法 将多个步骤打包以应对"超长推理链"问题 [5] - 该方法在安德鲁斯-柯蒂斯猜想上取得突破 推翻了一个40年来被广泛引用的"反例" [5] - "压缩路径"思路适用于所有需要推理链条的领域 有望推动数学研究新突破 [6] AI辅助数学研究的创新方式 - AlphaEvolve通过LLM生成并改进解题代码 配合评估模型提出比人类更优的解法 [7] - Meta的PatternBoost AI系统可生成相似数学概念 帮助激发研究灵感 [7] - AI工具可作为人类直觉的"侦察兵" 协助发现新路径和避开错误方向 [8]
每日机构分析:6月13日
新华财经· 2025-06-13 16:29
外汇市场 - 汇丰银行外汇策略主管认为地缘政治风险短期令英镑承压 英镑兑美元盘中跌至1 3530附近 [1] - 摩根大通指出美国5月PPI环比上涨0 1%低于预期 核心PPI同样仅上涨0 1% 数据强化9月降息预期 间接支撑英镑 [1] - 汇丰环球研究预计菲律宾央行下周将政策利率下调至5 25% 因通胀较低且第一季度经济增长缓慢 [2] 债券市场 - 丹斯克银行表示美国30年期国债拍卖需求良好 推动收益率降至5%以下 缓解市场对长期美债需求的担忧 [1] - 北欧斯安银行指出多数固定收益投资者预期瑞典央行6月利率决议将降息 [1][2] 地缘政治与商品 - 瑞穗证券认为地缘政治紧张局势的中期市场波动未被充分反映 若谈判避免冲突升级 油价或从75美元/桶回落至58-65美元区间 [2] 通胀与货币政策 - 野村证券指出美国5月关税对通胀影响有限 反映企业囤货行为及价格传导滞后性 [2] - Wilmington Trust认为长期关税更可能导致经济疲软而非通胀 美国消费者已削减非必需开支 企业定价能力下降 [2] - RSM首席经济学家称美国家电价格上涨反映进口税成本增加 消费者行为将决定通胀持续性 影响美联储降息时机 [3] 数据中心市场 - 高盛指出美国数据中心证券化市场规模从50亿美元激增至300亿美元 增长由云计算资本支出激增 供应紧张及政策推动 预计2026年年中达峰值入住率 [3] - 数据中心证券化市场涵盖ABS和CMBS结构 增长由配备数千个GPU的算力设施大规模投资推动 [3]