模型推理

搜索文档
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 12:49
R-KV团队 投稿 量子位 | 公众号 QbitAI 推理大模型虽好,但一个简单的算数问题能推理整整三页,还都是重复的"废话",找不到重点…… 一种可以把大模型的"碎碎念"转化为可控记忆条目的高效压缩方法,出现了! R-KV开源登场: 显存↓90%、吞吐×6.6、准确率=100% 。 它可以通过实时对token进行排序,兼顾重要性和非冗余性,仅保留信息丰富且多样化的token,从而解决大模型推理时的冗余问题。 让"长时间推理"不再是奢侈品。 项目详情可见文末链接。 R-KV三步走:冗余识别+重要性评估+动态淘汰 链式思考(Chain-of-Thought,CoT)让LLM解题思路清晰可见,却也让推理长度指数级膨胀。 以DeepSeek-R1-Llama-8B为例,一道AIME数学题就能写出 3.2万 个Token:模型权重15.5GB,KV缓存再吃 4.1GB ——显存瞬间见底。 可视化:R-KV vs. SnapKV 现有KV压缩方法(SnapKV、StreamingLLM、H2O等)主要针对 长输入 设计,可一旦模型在输出端开始"碎碎念",相似句子之间互相打高 分注意力,反而让"按注意力删低分"策略失灵: ...
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 14:42
采访嘉宾|尹良升,SGLang 核心开发者 编辑|罗燕珊 2025 年 5 月, SGLang 提出了第一个完全开源的 DeepSeek 大规模专家并行部署方案,该方 案也是目前开源实现中唯一能够复现官方博客所述推理性能和成本的方案。 近日,InfoQ 专访了 SGLang 核心开发者尹良升 ,他分享了该项目背后的关键技术、工程挑战 与社区生态,以及如何在大模型推理中实现性能与成本的平衡。从 PD 分离架构带来的尾延迟控 制,到推测解码提升 Token 生成速度,再到 KV 缓存落盘在多轮对话中的显存优化——这些关键 能力使 SGLang 成为支持低成本、大规模模型部署的高性能推理引擎。 尹良升,现就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计 算机博士学位。他是 SGLang 最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优 化。 6 月 27~28 日,在即将于北京举办的 AICon 全球人工智能开发与应用大会上,尹良升将发表演 讲《SGLang 推理引擎——高效的开源部署方案》,将深入解析前沿大模型推理关键技术,并探 讨其在实际应用中的优化 ...
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 10:25
西风 发自 凹非寺 量子位 | 公众号 QbitAI 该测试引来 OpenAI前A GI Readine ss团队负责人Miles Brundage 的转发关注。 OpenAI"最新最强版"推理模型 o3-pro ,实际推理能力到底有多强? 全球 首位全职提 示工程师Riley Go odside 来给它上难度: 说出歌手Sabrina Carpenter的一首歌的歌名,回答这个问题时, 每个单词最后一个字母连起来看,也能对应这首歌名 。 结果,o3-pro在经过4分25秒的推理过后,成功给出正确答案。 经Sabrina Carpenter实测, o3只能做对个大概 ,通常只能把最后几个字母凑对。 虽然人已经不在OpenAI了,但Miles Brundage还是替老东家直接开大阴阳苹果:如果这都不叫推理那什么叫推理。 PS: 苹果前几天发了个新研究 ,用汉诺塔等四个小游戏测试大模型,称推理模型全都没在真正思考,只是另一种形式的"模式匹配",所谓思 考只是一种假象。 除了网友实测外,各大评测榜单已陆续同步更新排名。 总结来看,和官方给的测试结果略有不同。 官方测评中,o3-pro超越o3、o1-pro,成为当前 ...
大模型推理,得讲性价比
虎嗅APP· 2025-06-06 18:10
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成 为大模型推理提效的关键路径。华为团队重磅 ...
MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
机器之心· 2025-06-06 17:36
混合专家模型技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,显著降低计算开销并在SuperCLUE千亿内模型评测中并列国内第一 [2] - 通过软硬协同优化实现推理性能提升6~8倍,昇腾300I Duo单卡吞吐达321 tokens/s,昇腾800I A2单卡吞吐飙升至1528 tokens/s [3] - 采用分层混合并行(HP)策略,Decode吞吐性能相比纯TP方案提升33.1%,通过模块化分工优化通信效率 [5][6][7] 通信与计算协同优化 - 提出TopoComm优化方案,同步次数降低35%,链路有效带宽提高21%,通信数据压缩25%,AllGather通信耗时降低39% [9] - 开发DuoStream多流融合方案,实现计算与通信细粒度并发调度,解决Expert模块通信瓶颈 [12] - 构建GMMRS与AGMM融合策略,关键通信路径流水掩盖,显著提升硬件资源利用率 [12] 高性能算子创新 - 开发MulAttention融合算子,Attention计算加速4.5倍,数据搬运流水占用率89%,访存带宽利用率87% [16] - 推出SwiftGMM矩阵计算引擎,GMM计算加速2.1倍,解码阶段整网推理时延降低48.7% [18] - 算子优化实现KV缓存搬运效率提升,路由专家权重搬运瓶颈突破 [15][16][18] 推理算法创新 - 专家动态剪枝算法PreMoE保持模型准确率同时提升推理吞吐10%+ [21] - TrimR反思压缩算法通过小模型监测大模型思考过程,推理步数降低14% [22] - SpecReason反思投机算法结合大小模型优势,推理吞吐提升30% [22] 昇腾平台性能表现 - 昇腾800I A2平台4卡部署下,大并发场景单卡吞吐1148 tokens/s,较72B/32B稠密模型提升97%/18%,MTP技术下最高吞吐达1528 tokens/s [24] - 昇腾300I Duo平台4卡部署实现小并发延迟50ms,大并发单卡吞吐201 tokens/s,MTP技术下吞吐最高321 tokens/s,提供高性价比解决方案 [26] - 预填充阶段2卡2路并发实现2k序列输入延迟1.94s,单卡吞吐1055 tokens/s [26]
中移齐鲁创新院发布“迅测”工具:助力国产芯片选型效率跃升
齐鲁晚报· 2025-06-06 16:15
随着大模型推理成本持续下降和国产芯片的飞速发展,政务、金融、医疗等对数据安全高度敏感行业, 正加速推进推理模型的国产化本地部署。面对市场上型号众多、性能差异显著的国产智算芯片,如何高 效、准确地压测模型推理性能,成为筛选出兼具高性能与低成本的芯片的关键挑战。 为攻克这一难题,中移齐鲁创新院自主研发"迅测"芯片推理性能自动压测工具,该工具创新性地构建 了"配置即测试"的压测模式,并集成了强大的数据自动解析能力,旨在破解国产芯片快速选型的瓶 颈。"迅测"工具的应用带来了显著的效率变革,单轮测试所需的人工值守时长从平均8小时大幅降至0.5 小时,数据整理耗时减少70%,整体芯片选型效率平均提升3倍。 采用标准化数据存储机制,自动计算并生成错误率、单路输出速度等核心性能指标,确保跨不同芯片平 台及异构环境的测试结果具有可比性。其内嵌的数据可视化引擎直观呈现芯片性能差异,结果一目了 然。此外,强大的自动化日志解析技术有效解决了海量压测日志需人工耗时汇总与格式整理的痛点。 截至目前,中移齐鲁创新院已成功利用"迅测"工具,完成了DeepSeek系列大模型在天数智芯、华为昇 腾、壁仞科技、瀚博半导体等多个主流国产计算平台上的 ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
猿大侠· 2025-06-02 12:22
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 11:40
核心观点 - 提出两种新型注意力机制GTA和GLA,在保持模型性能不变的情况下,解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][2][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%[2][3][25] - GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][29] 注意力机制优化 - 针对推理阶段的内存冗余、计算低效、长上下文瓶颈等问题重新设计注意力机制[8] - GTA通过参数绑定实现更彻底的KV重复利用,减少内存传输次数[15][16] - GLA采用双层结构,提高硬件效率并保持并行可扩展性[17][18] 实验验证 - 在四种规模模型(183M-1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA质量相当[21][22] - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[25][26] - GLA在序列长度从1K增加到64K时,解码速度比FlashMLA快2倍[29] - 在DeepSeek Coder V2 Base模型上,GLA-8在长上下文处理中吞吐量明显高于MLA[33] 作者背景 - 三位作者均来自普林斯顿大学,Tri Dao因提出Mamba架构和FlashAttention系列工作闻名学界[38][44][46][47] - Tri Dao是生成式AI初创公司Together AI的首席科学家[44] - 其他作者Ted Zadouri和Hubert Strauss在机器学习和Transformer优化方面有丰富经验[39][40][41][42][43]
阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升
量子位· 2025-05-31 11:34
在推理+搜索方向,通义实验室搜索团队已提出ZeroSearch、OmniSearch等工作,通过在特定的下游任务进行强化学习训练,让大模型在与 环境交互的过程中学习使用搜索引擎。 该团队认为, 仅在特定任务上训练会导致模型的泛化能力受限 ,难以适应更多场景下的检索推理任务。 受BERT模型在预训练过程中使用的掩码 (Mask) 预测任务启发,MaskSearch引入了 检索增强型掩码预测任务 。 也就是让模型使用搜索工具,预测文本中被遮蔽的部分,在预训练过程中有效学习通用的任务分解、推理等智能体策略,同时熟练掌握搜索引 擎的使用方法,为其后续适配多领域任务奠定基础。 通义实验室 投稿 量子位 | 公众号 QbitAI 为提升大模型" 推理+ 搜 索 "能力,阿里通义实验室出手了。 最新研究开源 全新 通用 预训练框架 —— MaskSearch ,在域内及跨域开放域问答任务上均较基线方法取得显著性能提升。 小模型甚至能媲美大模型表现。 不仅如此,MaskSearch可以兼容 监 督微 调 ( S FT) 和强化学习 (RL) 两种训练方法。 通过加入预训练的二阶段训练,MaskSearch相比只在下游任务进行 ...