稀疏注意力机制

搜索文档
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 12:35
视频生成模型效率瓶颈 - 扩散模型在高质量视频生成任务中已成为主流,但DiT模型中的注意力机制计算量随视频长度和分辨率提升急剧增加,成为推理效率最大瓶颈 [1] - 视频生成中DiT通常使用3D全局注意力建模时空一致性,计算量随token数量呈平方增长,生成8秒720p视频需要接近一小时 [1] - 在HunyuanVideo等模型中,注意力模块计算时间占比超过80% [1] 现有加速方法局限性 - 现有稀疏注意力方法如Sparse VideoGen和AdaSpa在GPU上实现了一定加速,但受限于稀疏度不足和稀疏模式设计刚性,效果不理想 [2] - 这些方法依赖固定稀疏算子,缺乏对输入内容的动态适应能力,难以实现细粒度、内容感知的稀疏模式调控 [2] DraftAttention创新方案 - 研究团队提出无需训练、即插即用的动态稀疏注意力方法DraftAttention,实现高达2倍的GPU端到端推理加速 [3] - 核心思想是通过低分辨率"草图注意力图"估计token重要性,指导高分辨率注意力计算中的稀疏模式选择 [11] - 具体流程包括草图构建、草图注意力计算、稀疏模式引导、Token重排以适配硬件等步骤 [12][13] - 该方法可直接插入现有视频扩散模型如HunyuanVideo和Wan2.1中,无需额外训练或微调 [13] 理论验证 - 使用平均池化构建的Draft Attention Map与原始高分辨率Attention Map之间的差异在Frobenius范数意义下有界 [15] - 从Draft Attention Map提取的稀疏注意力模式影响可被严格界定在可控范围内 [15] 实验结果 - 在HunyuanVideo和Wan2.1模型上测试,DraftAttention在高稀疏率(75%~90%)下能更好保留视频时空一致性和关键结构 [20] - 在H100和A100 GPU上实现最高1.75倍端到端推理加速,加速效果随视频长度、分辨率和稀疏率提升 [22] - PSNR在高分辨率下提升约+2~+3分,SSIM一致性更强,LPIPS感知相似度提升 [21] 未来方向 - 计划结合量化与蒸馏等技术,继续优化长视频生成效率瓶颈,推动高质量视频生成模型走向移动端、边缘端等资源受限场景 [47]
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 15:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
晚点LatePost· 2025-02-20 22:21
"从开源论文、开源代码出发,现在已经进化到开源思维链了嘛!" 文丨Andrew Lu 注释丨贺乾明 程曼祺 2 月 18 日,Kimi 和 DeepSeek 同一天发布新进展,分别是 MoBA 和 NSA,二者都是对 "注意力机 制"(Attention Mechanism)的改进。 今天,MoBA 的一位主要研发同学 Andrew Lu 在知乎发帖,自述研发过程的三次踩坑,他称为 "三入思过 崖"。他在知乎的签名是"新晋 LLM 训练师"。 这条回答下的一个评论是:"从开源论文、开源代码出发,现在已经进化到开源思维链了嘛。" 注意力机制之所以重要,是因为它是当前大语言模型(LLM)的核心机制。回到 2017 年 6 月那篇开启 LLM 革命的 Transformer 八子论文,标题就是:Attention Is All You Need(注意力就是你所需要的一 切),该论文被引用次数至今已达 15.3 万。 注意力机制能让 AI 模型像人类一样,知道在处理信息时该 "重点关注" 什么、"忽略" 什么,抓住信息中最 关键的部分。 在大模型的训练阶段和使用(推理)阶段,注意力机制都会发挥作用。它的大致工作原理是 ...