视觉生成

搜索文档
用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化
机器之心· 2025-06-30 11:18
视觉生成模型的注意力优化 - 视觉生成模型的输入序列长度可达10K-100K,Attention操作占据模型开销的60-80%,成为主要性能瓶颈 [1] - 现有稀疏注意力与低比特量化方法在低稠密度(<50%)和低比特(INT8/INT4)时面临显著性能损失 [1] - 视觉生成任务的注意力模式具有"多样且分散"的特点,这是优化面临的关键挑战 [3][11] 技术方案与创新点 - 提出Token重排方案将多样分散的注意力模式统一为硬件友好的块状模式 [14][19] - 针对每个注意力头选择最优的Token重排方式,共6种可能的置换方式 [24] - 静态稀疏方案在50%稠密度下取得1.73x加速,且不引入额外开销 [55][56] - 量化方案可将PV计算从FP8降至INT4而无精度损失 [46] 性能表现 - 在50%稀疏比下,PAROAttention的CLIPSIM达0.203,与FP16全精度相当 [50] - 20%稀疏比时仍能保持良好生成质量,优于基线50%稀疏比的效果 [45] - 最激进优化方案(50%+INT4)实现近10倍Attention延迟优化 [49] - 量化方案在INT4下PSNR达24.16,优于SageAttentionV2的24.46 [50][56] 系统优化 - 采用算子融合技术将Token重排的额外开销降至可忽略程度 [47] - 通过预取策略将稀疏掩码的显存开销从GB级降至MB级 [47] - 方案完全兼容FlashAttention,无需特殊CUDA Kernel优化 [43] 应用前景 - 方法可启发训练方法优化、图像参数化方式和3D空间位置编码设计 [58] - 技术路线不仅限于推理优化,可推动具有更好归纳偏置的视觉基座模型构建 [58]
国内首个移动端视觉生成大模型“橘洲”V1端侧版在长沙上线
快讯· 2025-05-21 11:08
5月21日,国内首个基于国产算力预训练的视觉基座大模型"橘洲"V1端侧版在长沙正式上线。该模型能 在手机端实现1024×1024分辨率图像的秒级生成,具有成本低、质量高、速度快、轻量级、可离线等特 点。"橘洲"大模型由湖南汇视威智能科技有限公司自主研发,依托中科曙光(603019)算力,在较短时 间完成了近4000万张图片训练,成为全国首个在国产算力上完成整体训练和推理过程,并实现移动端部 署的视觉基座大模型。(长沙发布) ...
手机能畅玩,“橘洲”有多硬核?
长沙晚报· 2025-05-21 08:20
长沙晚报全媒体记者 张洋子 2025年,当全球AI竞赛进入"端侧部署"新阶段之际,一款纯国产、适配智能手机端、输入文字可实现秒级出图 的视觉生成大模型首次亮相长沙。 20日,湖南汇视威智能科技有限公司(以下简称"汇视威")发布了视觉基座大模型"橘洲"(V1端侧版本)。与 当前主流的视觉生成大模型有所区别,"橘洲"是国内基于国产算力预训练的视觉基座大模型,可在智能手机端 实现1024×1024分辨率图像的秒级生成,并能满足在移动端上的部署和推理需求。 轻量化架构优势、多项突破性技术,"橘洲"将实现在全国甚至全球行业关键性能领跑,剑指全球行业榜单。这 款"橘洲"有多"硬核"?本报记者一探究竟。 "硬核"设计:适配手机,"小身材"有"大能量" 视觉基座大模型是视觉人工智能生成的基础设施,目前的视觉基座大模型由于其参数量大、算力需求高,推理 过程大多在服务器"云端"实现,因此端侧通用视觉大模型成为破局关键。 "算力消耗巨大、高延迟、安全隐私风险、服务器维护成本高,这些都是传统视觉大模型的缺点。"汇视威创始 人、董事长顾善植介绍,这种运用方式有三大弊端:一是模型推理成本高,给服务器算力成本和运维成本带来 极高压力;二是 ...
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 16:09
本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。 项目通讯作者为黄伟林博士和罗平教授。 R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。 现在,我们推出名为 DanceGRPO 的创新框架,这是首个旨在统一视觉生成强化学习的解决方案,实现了单一强化学习算法在两大生成范式(diffusion/rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五类奖励模型(图像 / 视频美 学、图文对齐、视频动态质量、二元奖励)中的全面覆盖。 论文标题: DanceGRPO: Unleashing GRPO on Visual Generation arXiv 链接:https://arxiv.org/pdf/2505.07818 动机 在生成式 AI 快速发展的这三年,RLHF 逐渐的走进了大家的 ...
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
量子位· 2025-03-30 10:37
NAR团队 投稿 量子位 | 公众号 QbitAI 具体来说,NAR模型从初始token开始,按照与初始token的曼哈顿距离从小到大依次生成token。这种生成顺序不仅保留了视觉内容的空间和 时间局部性,还允许模型在生成过程中并行预测多个相邻的token。 为了实现这一点,研究人员引入了 维度导向的解码头 ,每个头负责在空间或时间的一个正交维度上预测下一个token。 通过这种方式,NAR模型能够在每一步中并行生成多个token,从而大幅减少了生成所需的模型前向计算步骤。 下面具体来看。 从"下一个token"到"下一个 邻域" 在图像/视频生成任务中,传统的"下一个token预测"方法正面临严重的效率瓶颈。 怎么办? 来自浙大、上海AI Lab等机构的研究人员提出了一种全新的视觉生成范式—— 邻近自回归建模 (Neighboring Autoregressive Modeling, NAR)。与传统的"下一个token预测"不同,NAR模型采用了"下一个 邻域预测"的机制,将视觉生成过程视为一种逐步扩展的"外绘"过程。 在当今的AI领域,视觉生成任务 (如图像和视频生成) 正变得越来越重要。无论是生成逼真 ...