Workflow
大型语言模型
icon
搜索文档
谈谈AI 项目中需要关注的基本数据质量能力
36氪· 2025-08-01 18:43
人工智能与数据管理行业发展趋势 - 人工智能行业从实验阶段转向战略实施 重点转向构建能提供可观投资回报率和商业价值的数据与人工智能解决方案 [1] - 大型语言模型正迅速商品化 通过API和开源版本日益普及 但人工智能创新步伐并未放缓 [1] 企业数据竞争护城河 - 企业最具防御力的竞争护城河在于专有数据资产 其战略优势取决于数据质量 可靠性 上下文丰富度和安全性 [2] - 数据具有动态特性 在流经复杂工作流程时可能因上游数据模式变更 新字段引入或业务逻辑修改导致质量下降 [2] 数据质量框架核心要素 - 全面数据质量框架需确保数据准确性 完整性 一致性 相关性 及时性和可访问性 这是数据驱动决策成功的基石 [3] - 高质量数据能减少代价高昂的错误和错误预测 最小化返工 降低风险并节省资源 [3] - 数据质量是业务必要条件 能提升客户满意度 推动创新 并成为成功企业与失败企业的差异化因素 [3] 数据质量框架组成结构 - 综合框架包含数据发现 剖析分类 数据目录 质量规则 可观测性 血缘分析和治理政策管理七大层级 [4][5] - 集成方法利用元数据确保实时可信洞察 统一组织数据管理实践 打破数据孤岛 促进跨部门协作 [5] 数据发现层 - 数据发现提供所有数据资产的全面概述 包括来源 格式 质量和关系 确保仅使用准确可靠的高质量数据 [6] - 现代数据发现利用大型语言模型发现隐藏关系 评估数据适用性 并涵盖合成数据以填补真实数据空白 [7] - 发现工具需通过原生连接器或开放标准(ODBC/JDBC)及API(RESTful/SOAP/GraphQL)连接数据源 支持实时元数据提取 [7] 数据剖析与分类 - 数据剖析使用算法评估数据质量维度 帮助了解数据特征(唯一性 基数 值范围 敏感度)并识别异常 [8] - 剖析可按需或定时运行 支持与Apache Airflow等编排引擎集成实现自动化 减少人工干预和错误 [9] - 数据分类通过标签改进数据管理使用和治理 LLM利用语义理解显著改进传统关键词分类方法 [10][11] - 分类精度衡量模型正向预测准确度(减少误报) 召回率衡量识别所有相关正实例的能力(确保完整性) [12][13] 数据目录与语义层 - 数据目录集中数据发现 加强治理 提升数据素养 提供数据资产全面视图 包含技术 操作和业务三类元数据 [15][17][18] - 技术元数据描述数据结构与存储细节 操作元数据关注使用性能与生命周期 业务元数据提供业务上下文(语义层) [15][17][18] - LLM可自动生成业务描述 支持自然语言语义搜索 业务术语表映射底层技术元数据 按层次组织术语 [18] - 数据目录发展为数据资产市场 支持组合新数据产品 实现数据货币化 并作为协作工作空间允许注释评级 [19] 数据质量规则 - 数据质量规则确保数据准确性 一致性 完整性和可靠性 传统手动规则难以应对快速变化的数据动态 [20] - 机器学习算法(标准差 Z分数 随机森林 编辑距离)用于统计分析 识别异常值 检测重复项和预测管道故障 [20][21] 数据可观测性 - 数据可观测性监控数据管道健康状况 确保数据流动不降低质量 可靠性或成本效益 包含监控 分析 警报和事件管理 [22][25][26][27][28] - 监控聚焦关键指标(数据漂移 数据量 质量 SLA 资源使用) 分析识别隐藏模式故障 警报智能管理避免疲劳 [25][26][27] - 事件管理支持根本原因分析和跨部门协作补救 反馈循环推动系统持续演进 AI提升可观测性 through语义理解和规则自动生成 [28][29] 血缘与影响分析 - 血缘分析追踪数据从源头到目的地的路径 提供数据使用方式洞察 易于识别解决错误和不一致 [30] - 沿袭应适用物理层(模式 表 列) 包含转换逻辑 叠加质量规则帮助业务用户识别质量控制点 [32] - AI可自动推断预测数据沿袭 快速识别来源和影响 Open Lineage开放标准有望简化元数据双向共享 [32][33] 治理与政策管理 - 治理政策管理涉及数据政策 商业术语政策 利益相关者管理政策和流程政策 确保数据使用者遵守约定 [34][35][36] - 数据访问策略检测敏感数据位置 根据安全隐私要求分类 执行最小化原则 通过RBAC ABAC等技术实施控制 [36][37] - 数据目录作为策略管理中央存储库 底层系统负责执行 安全领域还包括MFA 防火墙 IDPS等广泛措施 [37][38] 数据治理重要性 - 良好治理需求增长因更多人员访问更多数据用于更多业务用例 缺乏可信数据将导致AI输出糟糕 浪费资源并削弱领导层信心 [39] - 规范方法可加速AI开发部署 提高方案准确性性能 包括质量透明度 检索增强生成和建立对AI输出信任 [40]
ACL首届博士论文奖公布,华人学者李曼玲获荣誉提名
机器之心· 2025-07-29 17:58
ACL计算语言学博士论文奖 - 获奖者Sewon Min的博士论文《重新思考大型语言模型中的数据使用》对大型语言模型的行为和能力提供了关键见解,特别是在上下文学习方面[2][4] - 论文提出非参数语言模型概念,通过检索训练数据提高模型准确性和可更新性,并开发了首个广泛应用的神经检索模型[16] - 研究探讨了负责任数据使用的新途径,如分离许可文本和版权文本的不同处理方式[18] 获奖者学术背景 - Sewon Min本科毕业于首尔大学,2024年获华盛顿大学博士学位,现任加州大学伯克利分校助理教授[6] - Google Scholar显示其论文总被引量达13,821次,h-index为35,i10-index为45[7] - 代表作《Dense Passage Retrieval for Open-Domain Question Answering》被引4,605次,是2020年EMNLP会议论文[7] 提名论文1:多模态知识获取 - 李曼玲论文提出以事件为中心的多模态知识获取方法,实现从实体中心到事件中心的范式转换[27] - 开发CLIP-Event模型解决跨模态对齐难题,首次实现零样本多模态事件抽取(M2E2)[31] - 构建事件图谱结构支持全球事件推理与预测,并开发多媒体事件知识图谱[33][34] 提名论文2:人机协作心理健康 - Ashish Sharma研究显示AI反馈机制使300名在线互助者共情表达能力显著提升[49] - 在15,531名用户试验中,人机协作的认知重构工具有效缓解负面情绪[51] - 开发计算框架BOLT评估LLM作为治疗师的行为表现,并设计临床试验评估AI心理干预[52] 提名论文3:跨语言语义解析 - Thomas Sherborne研究如何将语义解析器从英语高效适配到新语言,解决数据稀缺问题[62] - 提出四种跨语言对齐策略:集成机器翻译源、零样本解析器、元学习算法和潜变量模型[64] - 证明通过最少目标语言数据样本组合可实现准确跨语言语义解析[65] 研究者职业发展 - 李曼玲现任西北大学助理教授,领导机器学习与语言实验室开展多模态AI研究[41] - Ashish Sharma加入微软应用研究院担任高级应用科学家,负责人机协作系统优化[54] - Thomas Sherborne加入AI创企Cohere,专注大语言模型企业应用开发[66]
中银晨会聚焦-20250724
中银国际· 2025-07-24 09:57
报告核心观点 - 2025年7月24日的晨会聚焦报告涵盖多领域研究,包括7月金股组合、市场指数表现、行业表现,重点关注人形机器人、主动权益基金配置、AI算力产业链等方面,各领域呈现出不同的发展态势和投资机会 [1][3] 7月金股组合 - 7月金股组合包含滨江集团、顺丰控股、极兔速递 - W等10只股票 [1] 市场指数表现 - 上证综指收盘价3582.30,涨0.01%;深证成指收盘价11059.04,跌0.37%;沪深300收盘价4119.77,涨0.02%;中小100收盘价6849.74,跌0.46%;创业板指收盘价2310.67,跌0.01% [4] 行业表现(申万一级) - 非银金融、美容护理、家用电器等行业上涨,建筑材料、国防军工、机械设备等行业下跌 [5] 策略研究 - 人形机器人产业 - 2025年7月7 - 18日,人形机器人产业市场关注度显著提高,相关指数涨幅较好,易方达国证机器人产业ETF资金净流入,规模突破20亿元,年内增超10倍 [6] - 行情由订单、资本、意见领袖发言、产业、政策等多重因素驱动,如中国移动订单落地、智元收购股权、黄仁勋论断、特斯拉事件扰动缓解、工信部表态及地方政策支持等 [6][7] - 当前人形机器人进入催化密集区,受益于高低切需求,行情启动逻辑顺畅 [8] 金融工程 - 主动权益基金配置 - 2025Q2主动权益基金仓位中位数为90.63%,较上季度提升,处于历史高位 [3][9] - 板块配置上,TMT、港股和机械配置比例最高,港股、TMT、金融等板块超配,消费、周期等板块低配 [9] - 行业配置上,港股、电子、医药等行业配置比例较高,港股和电子配置比例近年攀升,食品饮料和电力设备及新能源走低 [10] - 宁德时代、美的集团等为前五大重仓股票,本期基金抱团度较上季度走低,在历史中枢附近 [10] 电子 - AI算力产业链 - 2025年AI产业链迎来闭环,步入业绩兑现期,先进AI infra平台将驱动产品迭代与供应链变革 [11] - 海外资本开支景气,推理需求增长,AI云侧基础设施建设是资本开支主要增量 [12] - 下一代AI infra新品加速演进,底层核心硬件供应链升级,GB300 NVL72性能跃升,英伟达下一代芯片架构或2026年推出 [12] - AI算力竞争引发PCB产业变革,高阶PCB产能供给或紧张,相关公司及配套材料有望受益 [13]
重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%
机器之心· 2025-07-22 16:59
核心观点 - GTA(Grouped-head latent Attention)是一种高效的大模型框架,通过共享注意力矩阵和压缩潜在值表示,显著提升模型性能与计算效率 [1] - GTA将计算量削减62.5%,KV缓存缩减70%,prefill和decode速度提升2倍,适用于长序列任务和边缘设备部署 [1] - 该技术由中国科学院自动化研究所、伦敦大学学院及香港科技大学(广州)联合研发,为大模型优化部署提供创新解决方案 [1] 大型语言模型效率困局 - Transformer架构虽推动NLP发展,但模型参数量激增导致传统多头注意力机制(MHA)弊端凸显 [3] - MHA存在计算冗余问题:每个注意力头独立计算查询/键/值向量,导致FLOPs呈平方级增长 [3] - 内存瓶颈显著:KV缓存规模随序列长度和注意力头数量快速膨胀,限制边缘设备部署能力 [3] - 推理延迟问题:高昂计算/内存需求导致实时应用体验下降,现有优化方案难以平衡性能与资源消耗 [4] GTA核心技术突破 分组共享注意力矩阵机制 - 将注意力头分组并共享统一注意力矩阵,减少重复计算(如16头MHA改为4组共享) [8] - 实验证明该设计可显著削减FLOPs,实现超长序列任务的推理加速 [10] 压缩潜在值表示技术 - 将所有注意力头的值向量压缩为低维潜在表示,配合WaLU非线性解码器动态生成完整向量 [12] - 在保留表达能力的同时,KV缓存规模缩减70%,突破边缘设备部署障碍 [14] 实验验证结果 160M参数模型表现 - 在2048/4096 token序列下,GTA2配置实现比MHA/GQA/MLA更低的评估损失(2.690 vs 2.696)和更优的Wikitext PPL(22.41 vs 23.03) [17] - KV缓存大小仅为MHA的12.5%(192维度 vs 1536维度) [17] 500M参数模型表现 - 2048 token序列中GTA4实现2.478评估损失,优于MHA的2.484,KV缓存为MHA的12.5%(320 vs 2560维度) [19] - 4096 token长序列任务中保持与MHA相当的评估损失(2.592),Wikitext PPL更优(16.96 vs 19.87) [19] 1B参数模型扩展性 - GTA-1B在50,000训练步中稳定收敛,KV缓存仅为GQA-1B的30% [20] - 微调后平均准确率达42.17,优于GQA-1B-SFT的40.64,自注意力计算成本低至37.5% [22] 效率评估 理论效率分析 - KV缓存尺寸和注意力计算量均实现数量级缩减,显著提升推理速度 [24] 实际硬件测试 - 在NVIDIA H100/A800、RTX 3060、Apple M2等平台测试中,GTA-1B预填充/解码时间全面优于GQA-1B [25][27] - 处理2k token长序列时性能优势更显著,缓存卸载场景下I/O效率提升明显 [29][30][31] 技术局限与未来方向 - 非线性解码器可能引入微小近似误差,需优化架构设计减少信息损失 [33] - 当前验证集中于NLP任务,需探索计算机视觉/多模态领域的适用性 [33] - 计划扩展至超大规模模型验证可扩展性,推动更广泛应用 [33]
摩根大通(JPM.N)首席执行官戴蒙:我们没有理由拥有大型语言模型。
快讯· 2025-07-15 20:54
摩根大通对大型语言模型的立场 - 摩根大通首席执行官戴蒙表示公司没有理由拥有大型语言模型 [1]
黄仁勋,卖卖卖!身家超巴菲特
搜狐财经· 2025-07-12 12:13
公司市值与高管财富 - 英伟达最新市值达4 02万亿美元[1] - 公司CEO黄仁勋净资产1440亿美元 超过沃伦·巴菲特位列全球富豪榜第九[1] - 黄仁勋年内净资产增加294亿美元[2] 高管股票减持 - 黄仁勋7月累计减持60万股公司股票 价值约9600万美元[2] - 6月已减持45万股 2025年内计划总计减持600万股[3] - 减持行为依据10b5-1规则制定的交易计划执行[3] 行业地位与技术优势 - 英伟达成为历史上首家市值突破4万亿美元的公司[3] - 公司GPU产品广泛应用于AI训练 推理和大型语言模型部署[3] - 硬件被OpenAI 谷歌 Meta等科技巨头采用[3] 全球富豪榜情况 - 全球前十富豪中有7位来自科技行业[2] - 马斯克以3600亿美元净资产位居榜首[2] - 科技行业富豪年内财富波动显著 扎克伯格增加458亿美元 马斯克减少727亿美元[2]
美联储:全面召回?大型语言模型的宏观经济知识评价(英文版)
搜狐财经· 2025-07-08 10:02
大型语言模型宏观经济知识评估 - 研究聚焦Claude Sonnet 3 5模型对失业率 CPI等宏观经济变量的回忆能力 其中对二战以来失业率和CPI季度值的回忆较准确 但对实际GDP增长和工业生产增长等波动性较大的数据表现较差 [11] - 模型存在将GDP首次发布值与后续修订值混合的问题 这种跨数据版本的平滑现象阻碍其模拟实时预测和准确回顾经济状况 [14] - 即使被指示忽略未来信息 模型在构建特定日期估算时仍受未来参考期值影响 对历史分析和实时预测模拟构成挑战 [15] 数据发布日期回忆表现 - 模型能部分准确回忆历史数据发布日期 但存在几天误差 且对提示细节敏感 调整提示会减少某类误差但增加另一类误差 [16] - 综合主要经济指标来看 约20 2%的日子模型会错误认为某些重要数据已发布 限制了其在历史分析和实时预测中的可靠性 [16] - 模型预测表现与专业预测者调查相当甚至略好 但前瞻偏差问题使其预测可能受训练集中滞后数据影响 [16] 模型测试方法论 - 测试采用Anthropic Claude Sonnet 3 5模型 通过AWS Bedrock平台访问 模型无互联网搜索功能 仅依赖提示信息 [27] - 查询设计要求模型逐步推理并最终输出答案 通过次级"总结器"模型提取数值估计 经正则表达式解析 [28][29] - 为降低随机性影响 每个查询重复多次并取平均值 温度参数设为1 测试显示其对GDP估计结果影响有限 [35][36] 宏观经济变量回忆测试结果 - 模型对CPI通胀和失业率的回忆接近真实值 仅1990年前低通胀时期存在高估偏差 置信区间狭窄显示响应稳定性高 [44] - 对实际GDP增长和工业生产的回忆显著遗漏高频波动 但能捕捉商业周期变化 2020年疫情期间数据未纳入分析 [45] - 1990-2019年期间 CPI和失业率回忆精确度显著高于GDP和工业生产 后者高频波动被系统性忽略 [46]
选择合适的大型语言模型:Llama、Mistral 和 DeepSeek
36氪· 2025-06-30 13:34
大型语言模型(LLM)比较分析 1 计算要求 - Llama、Mistral和DeepSeek提供不同参数规模的模型(7B、13B至65-70B),参数数量直接影响每次推理所需的计算量(FLOPs)[2] - 7B模型每个token生成需约140亿FLOPs,70B模型则需约1400亿FLOPs,计算量相差10倍[2] - DeepSeek 67B模型与Llama 70B计算需求相当,每个token生成约1e11 FLOPs[2] 2 硬件需求 - 7B-13B模型可在单GPU运行(7B需15GB VRAM,13B需24GB VRAM),70B级模型需2-4个GPU或专用加速器[3][4] - 7B/8B模型适合消费级GPU(如NVIDIA 16GB显存),65B+模型权重达130-140GB需多GPU并行[3][4] - Mistral 7B因优化架构可在CPU边缘设备运行,适合离线场景[15] 3 内存管理 - FP16推理时7B模型占14-16GB内存,13B占26-30GB,65B+超130GB需多设备[5] - 微调需2-3倍模型内存,LoRA/QLoRA技术可将内存需求降至全量微调的1/10[6][7] - Mistral滑动窗口和DeepSeek MLA技术优化长上下文处理,降低KV缓存内存占用[8] 4 性能权衡 - 交互式应用(如聊天机器人)优先低延迟(7B模型每秒数十token),批处理任务侧重吞吐量(70B模型每秒数token)[10] - 动态批处理技术可平衡延迟与吞吐量,提升GPU利用率30%以上[11] - 小模型单请求响应更快,大模型通过硬件并行化实现更高精度[11] 5 生产部署 - 三大模型均兼容Hugging Face生态,支持Transformers/vLLM/TensorRT-LLM等框架[13][16] - 云部署方案包括AWS Bedrock(Mistral)、IBM watsonx.ai(8×7B混合模型)及A100/H100虚拟机[15] - 4位量化技术使7B模型可在高端CPU运行,Llama.cpp优化后支持手机端部署[15] 6 基准性能 - DeepSeek 8B在MMLU(78.1%)、GSM8K(85.5%)、HumanEval(71.1%)全面领先,数学/代码能力突出[18][21] - Llama-3-8B综合能力强(MMLU 68.4%,GSM8K 79.6%),适合通用场景[19][23] - Mistral 7B效率最优(MMLU 60.1%),推理速度比Llama-2-13B快30%[20][24] 7 技术演进 - 当前8B模型性能已超越早期30B模型,MMLU得分提升20个百分点[22] - 架构创新(滑动窗口/MLA)使小模型处理131k长上下文成为可能[8] - 训练技术突破(思路链提示/RLHF)推动小模型在数学/代码领域接近GPT-4水平[22]
AI成为数学家得力助手还要多久
科技日报· 2025-06-17 09:18
AI在数学领域的应用进展 - 美国国防高级研究计划局启动"指数性数学"计划 旨在开发提升数学研究效率的AI"合著者"系统 [1] - 新一代大型推理模型如OpenAI的o3和Anthropic的Claude 4 Thinking展现进步 在美国数学邀请赛中表现接近优秀高中生水平 [2] - 谷歌"深度思维"的AlphaProof系统结合语言模型与AlphaZero 取得与国际数学奥林匹克竞赛银牌得主相当的成绩 [2] - 谷歌AlphaEvolve模型在多个长期未解数学与计算难题上找到优于人类现有方案的解法 [2] AI当前在数学研究中的局限性 - 大型语言模型在FrontierMath测试中几乎集体"交白卷" 表明其面对全新高难度题目时能力不足 [3] - AI在解决"P vs NP"和"黎曼猜想"等重大数学难题时仍力不从心 竞赛题与真正数学研究存在差异 [2] - AI缺乏真正的创造力 能协助发现路径但无法实现真正的创新与突破 [8] AI处理数学问题的技术突破 - 加州理工学院团队开发"超级步骤"方法 将多个步骤打包以应对"超长推理链"问题 [5] - 该方法在安德鲁斯-柯蒂斯猜想上取得突破 推翻了一个40年来被广泛引用的"反例" [5] - "压缩路径"思路适用于所有需要推理链条的领域 有望推动数学研究新突破 [6] AI辅助数学研究的创新方式 - AlphaEvolve通过LLM生成并改进解题代码 配合评估模型提出比人类更优的解法 [7] - Meta的PatternBoost AI系统可生成相似数学概念 帮助激发研究灵感 [7] - AI工具可作为人类直觉的"侦察兵" 协助发现新路径和避开错误方向 [8]