Workflow
大语言模型推理
icon
搜索文档
低Token高精度!字节复旦推出自适应推理框架CAR
量子位· 2025-05-27 11:53
核心观点 - 过度依赖CoT思维链推理会降低模型性能,新提出的自适应推理框架CAR能根据模型困惑度动态选择短回答或长文本推理,实现准确性与效率的最佳平衡[1][3] - CAR框架在多模态视觉问答、关键信息提取及文本推理等多个基准测试中超越单纯的短回答与长推理方法[3] - CAR打破了"长文本推理必然性能更好"的固有认知,为大模型推理提供更灵活高效的解决方案[27] 研究背景 - 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现[2] - 已有研究发现长CoT推理并非总能提升准确率,甚至会削弱模型处理简单任务的能力[3] 实验设置 - 研究聚焦文本密集型视觉问答(VQA)和关键信息抽取(KIE)领域,选取8个代表性公开数据集开展实验[4] - VQA数据集包括DocVQA、InfoVQA、ChartQA、VisualMRC,KIE数据集包括SROIE、CORD、FUNSD、POIE[4] - 使用Qwen2.5-0.5B模型进行微调,在域内和域外数据集上开展性能评估[4] 关键发现 - PPL与准确率之间存在显著的强负相关性,数据集整体准确率越高,其平均PPL值越低[7] - 预测正确样本的平均PPL分数显著低于预测错误样本[7] - 以测试集PPL分布的75%分位数作为阈值,PPL值超过阈值时触发长文本推理模式[8] 方法设计 - CAR框架首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理[3] - 使用包含简短答案和长文本推理解答标注的训练示例构建新数据集,采用标准指令微调流程[12] - 对训练集中所有样本进行短答案推理,生成预测答案并计算其困惑度值PPL[13] 性能表现 - 在多模态数据集上,CAR Qwen2VL平均使用86.9个token,仅为Qwen2-VL Long所使用Token数量的15%[22] - 在DocVQA、ChartQA、FUNSD数据集上,CAR Qwen2VL准确率分别达到90.1%、69.9%、73.6%[23] - 使用Qwen2.5-7B模型时平均准确率达81.1%,使用Llama3.1-8B时达74.9%[24] - 在GSM8K、StrategyQA、MathOA数据集上,CAR Qwen2.5平均准确率达81.1%[26]
红帽宣布推出llm-d社区,NVIDIA、Google Cloud为创始贡献者
新浪科技· 2025-05-27 11:42
红帽公司启动llm-d开源项目 - 全球开源解决方案提供商红帽公司宣布启动新开源项目llm-d,旨在满足生成式AI大规模推理需求 [1] - 该项目与CoreWeave、Google Cloud、IBM Research和NVIDIA合作打造,利用突破性的大规模生成式AI推理技术 [1] - 项目目标是让大语言模型(LLM)推理云能够满足最苛刻的生产服务级目标(SLO) [1] 行业背景与市场需求 - 据Gartner数据,到2028年80%以上的数据中心工作负载加速器将专门部署用于推理,而不是训练用途 [3] - 推理模型日益复杂和规模扩大导致资源需求持续攀升,限制了集中式推理的可行性 [3] - 成本过高和延迟过长可能使AI创新陷入瓶颈 [3] llm-d项目的技术优势 - 将先进的推理能力集成到现有的企业IT基础设施中 [3] - 统一平台使IT团队能够满足关键业务工作负载的各种服务需求 [3] - 部署创新技术以最大限度地提高效率,显著降低与高性能AI加速器相关的总体拥有成本(TCO) [3] 行业合作与支持 - llm-d已获得生成式AI模型提供商、AI加速器先驱和主要AI云平台组成的联盟支持 [3] - 创始贡献者包括CoreWeave、Google Cloud、IBM Research和NVIDIA [1][3] - 合作伙伴包括AMD、思科、Hugging Face、英特尔、Lambda和Mistral AI [3] 行业领袖观点 - Google Cloud AI与计算基础设施副总裁Mark Lohmeyer表示高效AI推理对企业大规模部署AI至关重要 [4] - NVIDIA工程AI框架副总裁Ujval Kapasi称llm-d是对开源AI生态系统的重要补充,体现对生成式AI创新的支持 [4] - NVIDIA强调可扩展、高性能推理是下一波生成式AI和代理式AI的关键 [4]
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
机器之心· 2025-05-23 12:17
大模型推理优化技术 核心观点 - 大语言模型(LLM)面临推理成本高、性能冗余等难题,亟需提升速度与能效 [2] - 华为基于昇腾算力发布三项硬件亲和算子技术,实现推理速度与能效双重突破 [2][4][7][9] - 技术通过数学重构、硬件深度适配和多卡协同优化,推动行业向"数学创新+架构感知+硬件亲和"协同演进 [12] 技术全景 AMLA算子 - 通过二进制重解析将乘法转为加法运算,算力利用率最高达71%,优于FlashMLA的67% [4][5] - 基于存内计算减少数据搬运,Attention算子性能提升30%以上,平均算力利用率55% [4][5] - 未来将扩展至KV Cache量化和全量化场景 [12] 融合算子优化 - 三大设计原理:硬件单元并行优化、冗余数据搬运消除、数学等价重构计算流 [7] - 实现跨硬件单元算子融合,中间结果全程驻留高速缓存 [7] - 计划在更多模型架构上应用,推动昇腾硬件高效推理 [12] SMTurbo技术 - 支持384卡原生Load/Store语义,跨卡延迟低至亚微秒级 [9][10] - 通过并行读写设计提升访存吞吐20%以上,优化同步开销 [10] - 未来将结合业务流水设计,在大BatchSize场景实现收益 [12]
叶子豪、陈天奇等人开源项目FlashInfer入选,MLSys2025最佳论文奖公布
机器之心· 2025-05-14 12:36
核心观点 - 国际系统领域顶会 MLSys 2025 最佳论文奖由两篇华人主导的论文获得,分别是华盛顿大学等机构合作的《FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving》和瑞典查尔摩斯理工大学的《The Hidden Bloat in Machine Learning Systems》[1] - FlashInfer 是一个高效可定制的大语言模型注意力推理引擎,其技术已被集成到多个主流项目中[2][5] - 另一篇获奖论文提出了 Negativa-ML 方法,可显著减少机器学习系统中的代码臃肿问题[31][32] FlashInfer 论文 项目背景 - FlashInfer 是华盛顿大学、卡耐基梅隆大学和 OctoAI 合作的研究项目,旨在创建灵活的大语言模型推理内核库[4] - 项目提供多种 LLM GPU 内核的高性能实现,包括 FlashAttention、SparseAttention 等[4] - 首个适用于 DeepSeek MLA 的 Blackwell 内核也出自 FlashInfer[5] 技术优势 - 与当前最先进的 LLM 部署方案相比,FlashInfer 在多种场景下显著提升性能: - token 间延迟减少 29% 至 69%[7] - 长上下文推理任务延迟降低 28% 至 30%[7] - 并行生成场景推理速度提升 13% 至 17%[7] - 采用块稀疏行格式(BSR)存储键值缓存,支持动态配置块大小[16] - 兼容 NVIDIA Turing 到 Hopper 全系架构,针对不同硬件采用优化算法[17] 系统设计 - 通过 JIT 编译支持自定义注意力变体,用户只需定义函数子模块即可生成优化内核[20][21] - 采用 Plan/Run 模式处理不规则负载,借鉴 Inspector-Executor 模式[26] - 提供面向用户的 API,支持动态选择最优 CUDAGraph 执行[23] The Hidden Bloat in Machine Learning Systems 论文 研究内容 - 提出 Negativa-ML 方法,可分析 ML 框架共享库并识别消除臃肿代码[31] - 重点关注设备代码中的不必要代码,这是现有研究忽略的领域[31] - 在 300 个共享库的十个工作负载中验证方法有效性[31] 研究成果 - 平均减少设备代码大小达 75%,主机代码大小达 72%,文件总大小达 55%[32] - 峰值主机内存使用量减少最多 74.6%,GPU 内存使用量减少最多 69.6%[32] - 执行时间最多减少 44.6%[32]