SageAttention
搜索文档
视频生成DeepSeek时刻!清华&生数开源框架提速200倍,一周斩获2k Star
机器之心· 2025-12-26 12:35
核心观点 - 清华大学TSAIL团队与生数科技联合发布的TurboDiffusion加速框架,将AI视频生成从“分钟级等待”带入“秒级实时”时代,实现了高达200倍的推理加速,是行业发展的关键转折点[1][3][52] 技术突破与核心优势 - **加速效果显著**:在单张RTX 5090显卡上,主流视频生成模型的推理速度得到百倍提升,例如将14B模型生成5秒720p视频的时间从4767秒缩短至24秒,加速近200倍[1][26][43];将1.3B模型生成5秒480p视频的时间从184秒缩短至1.9秒,加速97倍[39][40] - **攻克核心瓶颈**:该框架成功击破了扩散模型生成高质量视频面临的主要壁垒——高推理延迟,通过系统性优化解决了处理海量时空token导致的耗时问题[7] - **四大核心技术驱动**:通过混合注意力加速、高效步数蒸馏、W8A8线性层量化以及训练阶段的并行策略协同作用,实现加速[13][21] - **混合注意力加速**:结合SageAttention(低比特量化注意力)与Sparse-Linear Attention(稀疏线性注意力),两者正交叠加可获得数倍额外加速[14][17][19] - **高效步数蒸馏**:引入rCM蒸馏方法,将采样步数从100步大幅减少至3-4步,同时保持视频质量[20] - **W8A8线性层量化**:对模型权重和激活值进行8-bit分块量化,将模型大小压缩约一半,并利用INT8 Tensor Cores加速计算[21] - **训练优化策略**:采用并行训练,将预训练模型的全注意力替换为SLA进行微调,同时使用rCM进行蒸馏,最后合并参数,以平衡推理效率与生成质量[22] 实际应用与性能表现 - **支持多种模型**:框架已支持包括TurboWan2.2-I2V-A14B-720P、TurboWan2.1-T2V-14B-720P等多个文生视频、图生视频模型版本,提供480p至720p的最佳分辨率[8][9] - **图生视频加速**:在14B模型生成5秒720p视频的任务中,实现了几乎无损的端到端119倍加速[31] - **文生视频加速**:在14B模型生成5秒720p视频的任务中,实现几乎无损的端到端200倍加速[43] - **商业模型集成验证**:在生数科技自研的Vidu模型上,生成8秒1080p视频的延迟从900秒提速到8秒,且不损失生成质量[47][48] 行业影响与产业落地 - **开启新范式**:标志着AI视频创作从“渲染与等待”模式向“实时生成”时代转变的关键节点[3][52] - **降低算力门槛**:使高端视频创作能力从昂贵的H100等专业显卡下沉到RTX 5090等消费级显卡,极大降低了个人创作者的算力门槛[52] - **技术广泛部署**:核心组件SageAttention作为全球首个注意力计算量化加速方案,已被工业界大规模部署,集成至NVIDIA Tensor RT,并落地于华为昇腾、摩尔线程等主流GPU平台[27] - **头部企业应用**:腾讯混元、字节豆包、阿里Tora、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤等国内外科技公司已在核心产品中应用相关技术,创造了可观经济效益[27] - **未来应用场景**:为AI视频直播、个性化视频流、AR/VR实时内容渲染等需要即时反馈的应用场景的落地铺平了道路[52]
腾讯研究院AI速递 20251226
腾讯研究院· 2025-12-26 00:57
英伟达战略布局与生态整合 - 英伟达与AI芯片初创公司Groq达成非独占性推理技术授权协议,传闻交易金额高达200亿美元,Groq创始人兼谷歌TPU之父Jonathan Ross及其工程团队加入英伟达 [1] - Groq专注于推理阶段的LPU芯片,其单卡输出速度可达500 token/秒,据称比英伟达GPU快10倍,并采用时序指令集计算机架构以规避HBM短缺并降低成本 [1] - 此次交易属于“技术授权+人才收购”模式,Groq将保持独立运营继续其云业务,英伟达此举旨在补齐其在推理算力方面的短板,并直接挑战谷歌TPU市场 [1] AI模型与框架性能突破 - 清华TSAIL实验室与生数科技联合开源TurboDiffusion视频生成加速框架,在单张RTX 5090上,1.3B参数的480P模型生成时间从184秒降至1.9秒,实现了97倍的加速 [2] - 该框架整合了SageAttention2++量化、SLA稀疏线性注意力、rCM步数蒸馏和W8A8量化四项核心技术,将端到端延迟从900秒大幅缩短至8秒 [2] - SageAttention技术已成功集成至NVIDIA TensorRT,并部署于华为昇腾、摩尔线程等平台,同时已被腾讯混元、字节豆包、阿里Tora等头部企业应用 [2] 行业大模型应用落地 - 上海市规划资源局与商汤科技联合打造了全国规划资源领域首个6000亿参数的基础大模型“云宇星空”,具备问不倒、能调图、会统计、能识图、会报告五大能力 [3] - 该模型基于坤舆经略语料库训练,在政务内网专业版与核心业务系统打通,其专有名词准确率达到98%,人工问答点赞率为95% [3] - 模型采用“1+6”(基座+垂类)的模型体系和智能调度引擎,支持对二维、三维空间数据的自然语言调用,探索了数据产品化服务化的政务大模型新范式 [3] - 腾讯云与安徽驿路微行基于腾讯混元大模型,联合推出了ETC领域首款AI智能体“助手Agent”,自今年4月内测以来已服务超过100万用户 [4] - 该智能体融合多模态交互技术,支持文本和语音输入,问答准确率达95%,问题解决率达90%,可实现设备咨询、查询通行记录、开发票等复合需求 [4] - 系统部署了105种状态监测算法以实时采集设备运行数据,通过语音交互与关键状态播报实现“服务找人”,用户可直接通过语音控制设备 [4] 具身智能与三维感知技术进展 - Dexmal原力灵机提出GeoVLA框架,采用双流架构在保留视觉语言模型语义理解能力的同时,通过点云嵌入网络和空间感知动作专家赋予机器人三维几何感知能力 [6] - 在LIBERO-90长程多任务测试中,该框架达到97.7%的成功率,超越了OpenVLA-OFT;在ManiSkill2测试中平均成功率达77%,真机域内任务总体平均成功率为86.3% [6] - 在分布外场景鲁棒性测试中表现突出,例如当篮筐高度变化时能保持60%的成功率(对比CogACT仅20%),视角偏移45°时能保持70%的成功率,证明其学到了真正的3D空间结构 [6] - 英伟达具身智能负责人Jim Fan称特斯拉FSD v14是首个通过物理图灵测试的AI,该软件已在美国等7个国家推出 [9] - 特斯拉构建了14个技术壁垒,包括冻结传感器方案4-6年以实现数据积累、即时价值判断引擎智能过滤数据、以及Neural Codec处理Raw Bayer原始数据等 [9] - 系统采用端到端Transformer实现从光子输入到电机扭矩输出,在Cortex超算的车机芯片上进行硬件在环量化训练,77天内更新了12个版本,但仍存在车道切换和变道决策问题 [9] AI前沿研究与科学突破 - 上海交大TSAIL实验室、上海算法创新研究院、深势科技组成的SciMaster团队推出ML-Master 2.0,基于国产DeepSeek-V3.2-Speciale在MLE-bench取得56.44%的奖牌率并登顶榜单 [7] - 该系统针对真实机器学习工程设计,引入了层次化认知缓存机制,将上下文建模为经验、知识、智慧三层认知资产 [7] - 采用“生成-验证”协议实现超长程自主能力,已在理论计算物理、具身智能等领域落地应用,目前通过SciMaster平台开放Waiting List申请 [7] - 密歇根州立大学物理学家许道辉在GPT-5的建议下,采用Tomonaga-Schwinger量子场论框架,在《物理快报B》发表了关于非线性量子力学与相对论兼容性的论文 [8] - 论文推导出状态依赖哈密顿密度的可积性条件,证明非线性量子演化极易破坏相对论协变性或导致超光速通信,这可能是首篇由AI提供核心理论突破思路的理论物理论文 [8] - 研究采用了“生成-验证”协议,即一个模型实例生成推导,另一个独立实例检查自洽性,最后由人类审查,强调了多模型协作工作流是高水平研究的安全阀 [8]
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
机器之心· 2025-06-18 17:34
核心观点 - 清华大学陈键飞团队提出的SageAttention3实现了5倍于FlashAttention的推理加速,并在多种视频和图像生成大模型中保持端到端精度表现 [2][5] - SageAttention3是首个针对BlackWell架构的全FP4量化即插即用注意力算子,在RTX 5090上达到1040 TOPS速度,比H100上的FlashAttention3快1.65倍 [2] - 该团队还首次提出可训练的8比特注意力(SageBwd)用于大模型训练加速,在微调任务中保持与全精度注意力相同结果 [2] 技术突破 推理加速 - SageAttention系列迭代加速效果:V1(2.1倍)、V2(3倍)、V2++(3.9倍)、V3(5倍) [2] - 在RTX5090上实现HunyuanVideo端到端3倍加速(164s vs 489s),视频质量几乎无损 [5][33] - 算子速度相比FlashAttention2和xformers分别提升5倍和10倍 [22] FP4量化创新 - 采用BlackWell硬件支持的Microscaling FP4量化,选择NVFP4格式(准确率99.52% vs MXFP4的98.37%) [15] - 提出两阶段量化解决P矩阵缩放因子范围狭窄问题,显著提升精度 [15][16] - 算法流程优化实现高效Attention算子,两行代码即可加速任意模型推理 [5] 8比特训练 - 对Q/K/V采用Per-block INT8量化,对P采用无量化Overhead的Per-token量化 [17] - 反向传播中保留dOVT为FP16精度,量化其他四个矩阵乘法 [18] - 在Base Model微调任务中与BF16注意力表现完全一致 [33] 应用效果 - 已应用于多个知名大模型:Vidu、CogvideoX、Mochi、Wan、HunyuanVideo、Flux、Llama3、Qwen等 [1] - 在CogvideoX(2B)上端到端速度从64s提升至27s [33] - 训练加速方面,8比特注意力在微调任务中完全无损,但预训练任务与全精度仍有差距 [34] 硬件适配 - 充分利用BlackWell架构的FP4 Tensor Core,RTX5090速度达FP16 Tensor Core的8倍 [9] - 实现GPU底层CUDA Kernel优化,在算子速度和模型精度上均有显著提升 [21]