Workflow
注意力机制
icon
搜索文档
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 12:35
视频生成模型效率瓶颈 - 扩散模型在高质量视频生成任务中已成为主流,但DiT模型中的注意力机制计算量随视频长度和分辨率提升急剧增加,成为推理效率最大瓶颈 [1] - 视频生成中DiT通常使用3D全局注意力建模时空一致性,计算量随token数量呈平方增长,生成8秒720p视频需要接近一小时 [1] - 在HunyuanVideo等模型中,注意力模块计算时间占比超过80% [1] 现有加速方法局限性 - 现有稀疏注意力方法如Sparse VideoGen和AdaSpa在GPU上实现了一定加速,但受限于稀疏度不足和稀疏模式设计刚性,效果不理想 [2] - 这些方法依赖固定稀疏算子,缺乏对输入内容的动态适应能力,难以实现细粒度、内容感知的稀疏模式调控 [2] DraftAttention创新方案 - 研究团队提出无需训练、即插即用的动态稀疏注意力方法DraftAttention,实现高达2倍的GPU端到端推理加速 [3] - 核心思想是通过低分辨率"草图注意力图"估计token重要性,指导高分辨率注意力计算中的稀疏模式选择 [11] - 具体流程包括草图构建、草图注意力计算、稀疏模式引导、Token重排以适配硬件等步骤 [12][13] - 该方法可直接插入现有视频扩散模型如HunyuanVideo和Wan2.1中,无需额外训练或微调 [13] 理论验证 - 使用平均池化构建的Draft Attention Map与原始高分辨率Attention Map之间的差异在Frobenius范数意义下有界 [15] - 从Draft Attention Map提取的稀疏注意力模式影响可被严格界定在可控范围内 [15] 实验结果 - 在HunyuanVideo和Wan2.1模型上测试,DraftAttention在高稀疏率(75%~90%)下能更好保留视频时空一致性和关键结构 [20] - 在H100和A100 GPU上实现最高1.75倍端到端推理加速,加速效果随视频长度、分辨率和稀疏率提升 [22] - PSNR在高分辨率下提升约+2~+3分,SSIM一致性更强,LPIPS感知相似度提升 [21] 未来方向 - 计划结合量化与蒸馏等技术,继续优化长视频生成效率瓶颈,推动高质量视频生成模型走向移动端、边缘端等资源受限场景 [47]
MiniMax追着DeepSeek打
经济观察网· 2025-06-18 19:32
2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就 训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广 泛争议。 MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万 美元,这一成本"比最初的预期少了一个数量级"。 MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性 注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性 采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。 经济观察报 记者 陈月芹 6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发 布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训 练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro ...
200亿AI独角兽反击,MiniMax首款推理模型对标DeepSeeK,算力成本仅53万美元
华尔街见闻· 2025-06-17 19:57
当DeepSeek的推理模型震撼全球AI圈时,一家估值200亿人民币的中国独角兽正悄然磨刀霍霍,准备用仅53万美元的训练成本和颠覆性架构设 计,向这个新贵发起正面挑战。 17日,AI创业公司MiniMax发布了其首款推理模型M1,根据基准评测,M1性能超越国内闭源模型,接近海外最领先模型,部分任务超过 DeepSeek、阿里、字节,以及OpenAI、谷歌和Anthropic等最新最强的开闭源模型。 这场较量的核心不仅在于性能,更在于效率——与DeepSeek R1相比,在生成64K token时,M1消耗的算力不到其50%;在100K token时,仅为其 25%。 MiniMax称,M1的整个强化学习过程仅使用512块英伟达H800 GPU训练三周,租赁成本53.74万美元(约合380万人民币)。这一成本控制"比最 初预期少了一个数量级"。MiniMax创始人&CEO闫俊杰发文表示:"第一次感觉到大山不是不能翻越。" MiniMax-M1:混合专家架构与线性注意力机制 MiniMax-M1采用了混合专家(MoE)架构和线性注意力机制(Lightning Attention),这是对传统Transformer ...
心智×算法 如何“共舞”(瞰前沿·人工智能如何改变科研范式)
人民日报· 2025-06-14 05:43
人工智能与心理学融合 - 全球AI for Science论文发表年均增长率达27.2%(2019-2023年)[1] - 心理学原理如条件反射和强化学习启发了AI技术(如AlphaGo的强化学习机制)[2] - 认知心理学的注意力机制被应用于AI模型(如ChatGPT的注意力权重分配)[2] 技术应用与效率提升 - 通过社交媒体和可穿戴设备捕获10亿级行为数据流,心理学研究进入"数据海洋"时代[2] - AI自动评估人格的相关系数达0.5,显著高于传统问卷效率[3] - 情感计算技术通过声波震颤识别孤独指数,深度学习框架分析口语特征以筛查抑郁[3] 研究范式革新 - 大型语言模型开发自助心理支持工具,采用"零样本学习"和"思维链提示"策略提升情感互动能力[5] - AI生成大规模危机文本训练数据,突破敏感数据获取瓶颈,模型识别微弱求助信号的能力增强[5] - 谷歌DeepMind通过"心智进化"实验模拟自然选择,AI推理任务表现超越传统算法[6] 未来发展方向 - 心理学启发的决策机制将提升AI在开放环境中的判断力,多模态整合能力适应复杂情境[7] - 具身智能仿真平台(如"格物")采用进化式学习算法,机器人训练周期从数周压缩至分钟级[6] - AI情感慰藉可能改善人类心理状态,需重新定义情感边界并制定伦理规范[8]
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
量子位· 2025-06-12 09:37
NFD团队 投稿 量子位 | 公众号 QbitAI 在A100上用310M模型,实现 每秒超30帧 自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架—— Next-Frame Diffusion (NFD) 。 通过实现帧内并行采样,帧间自回归的方式,NFD让视频生成在保持较高生成质量的同时,生成效率大幅提升。 或许不久之后的游戏,就是玩家直接跟模型交互打游戏了,无需通过传统的游戏引擎。 比如在《我的世界》中,下面每个视频在NVIDIA A100 GPU上生成 只需约 0.48秒 。 玩家在黑暗的走廊中不断前进: 玩家在攻击小动物后转动视角: 玩家跳跃后放置木块: 玩家跳上草地: 如今,NFD让生成速度又快了几倍。 玩家不停地放置石块: 值得一提的是,前段时间在X上火了的一款基于Minecraft的交互式自回归世界模型—— MineWorld ,也是这个微软研究院的团队做的。 它能够以每秒4-7帧的速度和模型进行交互。 为进一步提高生成效率,研究人员进一步通过以下技术来减少推理时的总采样次数: 引入块状因果注意力机制的Transformer ...
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
机器之心· 2025-06-11 08:24
Transformer架构的核心地位 - Transformer的自注意力机制在推理时能灵活建模长距离上下文,使其成为大语言模型不可替代的核心组件,尽管存在计算复杂度为二次方的问题 [1] - 线性复杂度的替代方案(如RNN、Linear Attention、SSM等)难以真正取代Transformer的地位,尤其在decoder-only架构广泛采用后,自注意力机制的重要性进一步凸显 [1] - 自注意力机制带来的KV缓存问题成为推理效率的关键瓶颈,其显存和带宽开销随模型参数维度扩大而显著上升,限制了推理长度与batch size [1] KV缓存的优化挑战与现有方案 - 当前主流大模型采用Grouped-Query Attention(GQA)机制,通过减少Key/Value头数量来减小KV缓存规模,在效率与效果间取得平衡 [5] - Multi-Query Attention(MQA)是GQA的极端形式,显存占用大幅减少但性能显著下降,而GQA成为大语言模型中最常见的注意力变体 [5] - DeepSeek团队提出的Multi-head Latent Attention(MLA)通过在隐空间压缩KV特征维度提升推理效率,但隐空间压缩幅度受限,KV缓存存储开销仍是瓶颈 [7] MTLA的创新与核心技术 - MTLA首次将时序压缩与隐空间压缩结合,在KV缓存的两个维度同时施加时空压缩策略,显著降低显存与计算成本 [2] - MTLA通过超网络动态融合相邻时间步信息,并设计步幅感知因果掩码确保训练与推理一致性,保持甚至略优于传统注意力机制的性能 [2][14] - 时间压缩率s=2时,MTLA对KV缓存的压缩程度与MQA相当但性能更优,且具备进一步压缩空间 [12][21] MTLA的训练与灵活性 - MTLA引入步幅感知因果掩码解决训练与推理行为不一致问题,保留所有中间状态KV表达,通过矩阵乘法实现高效并行计算 [14][16] - 解耦的旋转位置编码(decoupled RoPE)进一步提升了效率,MTLA在注意力机制与线性模型之间架起桥梁,提供效率与性能的灵活权衡 [17][18] - 当时间压缩率s足够大时,MTLA几乎只保留一个KV缓存,退化为线性序列建模方法 [17] MTLA的性能表现与应用潜力 - MTLA在语音翻译、文本摘要生成等任务中保持与标准MHA相当的质量,同时实现超过5倍推理速度提升和8倍显存占用降低 [20] - MTLA具备大规模部署潜力,尤其适合参数规模扩大和生成序列增长的大语言模型场景,有望成为自注意力模块的重要替代方案 [23] - MTLA实现代码已开源,但工程落地需社区持续推动,改动复杂度高于GQA和MQA [24][25]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
在这个 AI技术日新月异的时代,我们眼看着它不仅在改变生活,更在 改变着 商业规则。 AI可不只是那些冰冷的算法,它现在能像人一样思考、推理,甚至在某些方面 的表现超越了普通人 。这告诉我们,传统的技术和创新模式已经不够用了, 企业要想增长、要保持竞争力,就 需要 换个思路。 AI正在重新定义我们理解和实践商业创新的方式。 最近 , 混沌君旁听了 混沌学园的创始人李善友教授 的重磅 全新课程《认知型创新:从 OpenAI到DeepSeek》 。 这门课从企业创新的角度, 讲述了 全球两大顶尖 AI公司——OpenAI和DeepSeek是如何一步步走到今天的,他们究竟走过了怎样的创新之路。这对于我 们理解AI时代的技术创新和企业创新,提供了清晰且极具价值的路径。 教授 深挖 了 OpenAI最初的愿景和它如何对抗巨头的思路,解密大语言模型是如何诞生的 , 尤其是 AI能力如何从简单积累到惊人"涌现" 。 还 解读 了 DeepSeek如何在资源有限的情况下,走出一条"低成本高性能"的独特道路;更探讨 了 AI时代下,企业应该怎样构建一个能不断"涌现"创新的组织模式, 走向"技术领先"。 扫描下图二维码购买月卡 ...
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 15:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]
英伟达港大联手革新视觉注意力机制!GSPN高分辨率生成加速超84倍
量子位· 2025-06-10 13:16
GSPN团队 投稿 量子位 | 公众号 QbitAI 二维线性传播:从行列并行到密集连接 视觉注意力机制 ,又有新突破,来自香港大学和英伟达。 Transformer的自注意力在NLP和计算机视觉领域表现出色——它能捕捉远距离依赖,构建深度上下文。然而,面对高分辨率图像时,传统自 注意力有两个大难题: 虽然线性注意力和Mamba等方法能把复杂度降到O(N),但它们还是把图像当作一维序列处理,无法真正利用二维空间信息。 为此,香港大学与英伟达联合推出了 广义空间传播网络(GSPN) 。 GSPN采用二维线性传播,结合"稳定性–上下文条件",将计算量从 O(N²) 或 O(N) 再降到√N级别,并完整保留图像的空间连贯性。这样,不 仅大幅提升了效率,还在多个视觉任务上刷新了性能纪录。 兼具空间连贯性和计算效率 GSPN的核心技术是 二维线性传播 与 稳定性-上下文条件 ,基于此,现有注意力机制与GSPN的对比如下: 作为GSPN的核心组件,二维线性传播包括两个关键点: 线扫描机制 对于二维图像,二维线性传播通过逐行或逐列的顺序处理进行其遵循线性循环过程,隐藏层通过前一行的隐藏状态和当前输入计算得出: 计算量巨大: ...
ICML 2025 | 全局池化+局部保留,CCA-Attention为LLM长文本建模带来突破性进展
机器之心· 2025-06-08 16:21
琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),实现超长文本的高效上下文建模。在 128K 超长序列上下文建模任 务中,CCA-Attention 的推理速度是标准自注意力机制的 7.9 倍,同时键值缓存(KV Cache)显存占用减少 93%,性能全面优于现有高效注意力方法。 该成果已被 ICML 2025 接收,最早于 2024 年 12 月 17 日提交至 ArXiv,早于 DeepSeek NSA 和 Kimi MoBA 公开。CCA-Attention 不仅速度快、 资源占用低,更在上下文建模的精准度和效率上树立了新标杆,为长文本处理注入全新动力。 引言 近期研究 [1, 2, 3] 发现,LLMs 中的大多数层的注意力权重主要集中在少数 token 上,表现出显著的稀疏性(见图 1)。这一发现启示我们可以借助这种 稀疏特性,降低注意力机制的计算复杂度。 图 1: LLaMA2-7B 模型中注意力权重的可视化,阴影越深表示注意力权重越高。最后一个 token 仅对上下文少数几个 token 有着较高的注意力权重,即注意力权重具有 显著的稀疏性 。 现有稀疏注意 ...