Workflow
推理加速
icon
搜索文档
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab
量子位· 2025-07-04 09:42
核心观点 - 多模态智能面临视觉Token激增导致的算力瓶颈,腾讯AI Lab与CMU提出的VScan通过两阶段剪枝机制实现2.91倍推理加速,几乎不损性能[1][2] - VScan兼容主流视觉语言模型(如LLaVA/Qwen2.5-VL),覆盖图像问答/视频理解等16项任务,最高压缩88.9%视觉Token时性能仅降3.3%[4][31][32] - 该方法突破现有文本无关/文本相关剪枝方法的局限,首次实现跨视觉编码与语言解码阶段的协同优化[8][9][24] 技术背景 - 现有LVLM处理高分辨率图像时视觉Token达2,880-16,384个,自注意力计算复杂度呈平方增长导致显存与计算负担指数级上升[2][3] - 传统剪枝方法分两类:文本无关方法依赖视觉自注意力权重(如VisionZip),文本相关方法基于Token-查询相关性(如SparseVLM),但均缺乏跨阶段分析[8] - 早期剪枝存在位置偏置问题,中间层(第16-20层)才是多模态交互的黄金剪枝时机[18][21][22] 解决方案 - **第一阶段**:视觉编码阶段结合全局扫描(提取语义核心Token)与局部扫描(保留细节Token),通过相似性引导融合被剪Token信息[26][30] - **第二阶段**:语言解码阶段在中间层按注意力强度筛选文本相关Token,避免过早剪枝导致信息损失[27] - 支持FlashAttention与KV Cache压缩,LLaVA-NeXT-7B预填阶段加速达2.91倍,显存占用显著降低[36] 性能验证 - 在LLaVA-1.5-7B上,保留192/128/64个Token(原576个)时平均准确率仅降1.0%/1.2%/3.3%,显著优于VisionZip等基线[31][32] - Qwen2.5-VL-7B处理视觉定位任务时,75%剪枝率下VScan性能保持80.7%,而FastV/PyramidDrop性能腰斩[33][34] - 覆盖3B-32B不同规模模型,在GQA/MMBench等16个数据集上实现零损剪枝至88.9%压缩率[28][29][38] 行业影响 - 为多模态落地提供轻量级解决方案,尤其适合实时工业应用与边缘设备部署[5][38] - 开源方案降低工程门槛,推动社区优化视觉Token效率范式[6][39]
热乎出炉的面经,刚面完NVIDIA TRT LLM~
自动驾驶之心· 2025-06-23 19:34
作者 | 笑渐不闻声渐悄 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1918033580103282744 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『求职招聘』技术交流群 本文只做学术分享,如有侵权,联系删文 热乎出炉,刚面完Nvidia TRTLLM。本人bg是做llm推理加速的,主要在做speculative decoding,也 有一篇文章中了ICLR 2025。因为想继续做推理加速,所以尝试性的面了一下Nvidia,看能不能积累 connection。首先得吐槽一下这个面试机制:4位面试官一人面了我一个小时,整整连续面了4个小 时,面完感觉就是一个虚弱无力...然后简单聊一聊面试的问题 第一位面试官:自我介绍,讲一下自己的iclr 25关于spec的工作。面试官问的比较细致,从方法的 设置到evaluation都问到了,然后简单讲了一下自己nips 23的科研工作。感觉面试官对我的科研经 历还是比较满意,随后出了一道coding:n位数字插入任意数量的+,最后 ...
WaveSpeedAI 成泽毅:AI Infra 本来就是一门能挣钱的生意
Founder Park· 2025-06-10 20:59
核心观点 - 技术人追求价值证明而非安稳,大厂天花板促使成泽毅创业[1][2] - 推理加速是AI商业化关键环节,海外市场更认可Infra价值[15][20] - 通过开源验证技术市场潜力,全球化策略从Day One确立[11][21] - 轻资产团队+重系统架构,实现成本1/5的极致性价比[28][46] - 视频生成市场爆发前夜,降本需求催生百亿美元蓝海[42][47] 职业转折与创业动机 - 阿里两年升两级后遭遇成长瓶颈,团队膨胀稀释个体价值[1][6][7] - 创业公司商业化路线模糊,被动等待市场的心态成束缚[3][17] - GitHub项目24小时700星验证技术独立价值[8][11] - 国内Infra价值被低估,海外客户愿为稳定高效付费[12][20] 公司定位与商业模式 - 专注图片/视频生成推理加速,25年2月上线3月营收5万美元[4] - 寄生式合作策略:嵌入大客户系统分润,避免平台竞争[32] - 7人全栈团队实现小时级响应,远程协作降低沟通成本[29][30] - 与Datacrunch/Replicate等合作,技术授权+算力弹性调度[32][35] 技术架构与竞争优势 - 10万行代码自研PyTorch原生推理框架,拒绝ONNX复杂化[34] - 延迟从6秒优化至2.4秒,单位成本降至行业1/5[46][48] - 服务Freepik日处理200万图像,GPU支出节省数千美元/小时[48] - 系统兼容Google Veo/Minimax等主流商业模型[32] 市场洞察与行业趋势 - AI视频生成成本痛点:Veo 2模型10秒视频成本达5美元[43] - 全球视频生成市场规模2030年将达百亿美元,CAGR超30%[42] - 多模态技术需求爆发,开发者计划赋能超1万名创作者[55][56] - 国内企业忽视长期维护,海外认可Infra为商业化突破口[19][20] 运营策略与未来规划 - 先盈利后融资:4月实现数百万美元天使轮时已现金流为正[4][27] - 开源引流+快速商用验证,拒绝重资产GPU采购[24][35] - 规划Agent生态/建站工具,强化开发者支持体系[56] - 定位中国AI全球化范本,目标国际市场份额[57][58]
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
机器之心· 2025-05-30 11:28
近日,NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM,以无需训练的即插即用加速方案 ,实现了推理速度的突破! 在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒 的生成速度震惊 学界,展现了扩散模型在并行生成上的潜力。然而,开源扩散 LLM 却因 缺乏 KV 缓存机制和并行解码质量衰退 ,实际推理速度长期被自回归模型压制. 通过创新的技术组合,在不依赖重新训练模型的前提下,该工作为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据,解析其核 心优势。 一、 核心技术 分块 KV 缓存与置信度感知并行解码 论文:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding 项目地址:https://nvlabs.github.io/Fast-dLLM 论文链接:http://arxiv.org/abs/2505.22618 ...
ICML 2025|如何凭「自动补全」实现100K生成3×加速?
机器之心· 2025-05-18 12:25
大模型推理加速挑战 - 当前大模型推理面临超长文本生成的计算成本高、内存负担大、输出重复等问题,制约模型潜力[1] - GPT-o3、DeepSeek R1等具备百万至千万Token上下文窗口的模型使超长推理成为现实需求[1] 传统方法的瓶颈 - 主流模型(如LLaMA、Qwen)采用自回归生成方式,每次仅生成1个Token,导致10万Token以上序列性能急剧下降[4] - 三大核心瓶颈:模型重复重载造成I/O压力、KV缓存无限膨胀、语义重复堆叠[9] TokenSwift技术框架 - BIGAI NLCo团队提出可插拔无损加速框架,专为100K Token级任务设计,加速比达3倍以上[1][7] - 核心技术:多Token并行草拟(每次生成γ个候选)、n-gram启发式补全、树结构验证机制[12][14][16] - 动态KV管理通过重要性衰减策略减少缓存占用,重复惩罚机制提升输出多样性[19] 性能实验数据 - 在YaRN-LLaMA2-7b-128k等模型上测试,100K Token任务中LLaMA3.1-8B生成时间从5小时缩短至1.5小时[21][22] - 序列越长加速越显著:100K时加速比从2.1×提升至3.1×,接受率维持70-90%[23] - Distinct-n指标达0.43-0.69,较未优化前(0.12)显著提升[26] 行业应用价值 - 直接兼容LLaMA、Qwen等主流模型,无需重构架构[28] - 适用于多轮对话、代码生成、Agent计划编排等长文本场景[29] - 开源资源包括论文(ICML 2025)、GitHub代码库及技术博客[8]
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
机器之心· 2025-04-29 11:22
本文由华东师范大学和小红书联合完成,共同第一作者是华东师范大学在读硕士、小红书 NLP 团队实习生黄文轩和翟子杰,通讯作者是小红书 NLP 团队负责人 曹绍升,以及华东师范大学林绍辉研究员。 多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存 占用逐渐增加,这导致了多模态大模型推理效率的降低。现有的方法通过减少预填充(prefill)阶段的视觉 token 冗余来实现推理加速。遗憾的是,这种在预填充 阶段实现的视觉 token 稀疏化所带来的加速优势,在解码阶段会逐渐减弱。当解码输出的文本 token 数量增多时,这些方法仍然会遇到性能瓶颈。 为了解决上述问题,团队创新性地提出了一个全新的动态视觉 - 文本上下文稀疏化推理加速框架 ——Dynamic-LLaVA。该框架针对多模态大模型在不同推理模式 下(包括预填充阶段以及有无 KV Cache 的解码阶段),设计了定制化的稀疏化推理方案,以实现多模态大模型的高效推理。实验结果表明,Dynamic-LLaVA 在 几乎不损失视觉理解和生成能力的前提 ...