Flux

搜索文档
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
机器之心· 2025-07-16 12:21
多模态理解与生成技术进展 - 当前文本到图像生成技术如Stable Diffusion和Flux缺乏真正的多模态推理能力,难以理解图像与文本的复杂逻辑关系[1] - OpenAI的GPT-4o和Google的Gemini Pro展示了强大能力,但依赖超大规模参数和算力资源[2] - 香港科技大学与Snap Research提出的ThinkDiff方法,仅需少量数据和数小时训练即可实现多模态推理式生成[3] ThinkDiff核心技术 - 核心创新在于将视觉语言模型(VLM)的推理能力迁移至扩散模型,结合两者优势实现高质量生成[7] - 利用LLM与Diffusion共享特征空间的特性,通过代理任务将VLM与LLM解码器对齐[9][11] - 采用掩码训练策略强制对齐网络深度理解多模态信息,避免特征对齐走捷径[15] 模型架构与变体 - ThinkDiff-LVLM版本继承大型视觉语言模型的多模态理解能力[16] - ThinkDiff-CLIP版本强化文本图像组合能力,可扩展至视频生成领域[16][34] - 网络设计关键:对齐VLM自回归生成的tokens特征而非输入tokens,实现真正的推理能力传递[15] 性能表现 - 在CoBSAT基准测试中全面领先:Color-I准确率0.638(较SEED-LLaMA提升32.4%),Action-II准确率0.664(提升220.8%)[19] - 训练效率显著:仅用4块A100训练5小时即达0.463平均准确率,远优于需64块A100训练216小时的SEED-LLaMA[21] - 定性测试显示其生成质量与商业模型Gemini相当,且具备视频生成扩展能力[25][34] 行业影响 - 突破性解决低资源环境下的多模态推理难题,为学术研究和工业应用提供新路径[3][36] - 开创扩散模型理解复杂图文组合的新范式,显著提升生成式AI的语义理解深度[7][15] - 技术方案具备高度可扩展性,可适配不同VLM架构并延伸至视频生成领域[16][34]
【七彩虹教育】最好用的AI是什么?语音助手?大语言模型?文生图?
搜狐财经· 2025-07-15 21:37
人工智能发展现状 - 人工智能领域近期出现小爆发期,语音识别、会议总结工具、交互式文字模型以及图像生成技术如Midjourney、StableDiffusion、HunyuanDiT、Flux等纷纷涌现 [1] 信息处理效率分析 声音 - 人类可理解的语速约为每分钟150-200字,每个字约1字节,信息量约为200 bytes/minute或1600 bits/minute [4] - 语音相关人工智能技术如语音识别和合成已接近或超过人类水平,例如阿里开源的CosyVoice和SenseVoice [11] 图像 - 假设每秒处理一幅1024x1024像素RGB图像,每幅约3.15 MB,每分钟信息量可达189 MB [6] - 图像生成和识别技术尚未达到人类水平,主要因图像信息量远高于语音和文字 [11] 文字 - 平均阅读速度每分钟250-300个英文单词,每个单词约5字节,信息量约为1250 bytes/minute或10,000 bits/minute [8][9] - 大语言模型如ChatGPT和阿里QWen2逐步接近人类水平,QWen2已成为全球开源模型领先者 [11] 信息含量与技术难度关系 - 信息含量排序为语音<文字<图像,技术难度与之正相关,语音最易处理,图像最难 [11]
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
机器之心· 2025-06-18 17:34
核心观点 - 清华大学陈键飞团队提出的SageAttention3实现了5倍于FlashAttention的推理加速,并在多种视频和图像生成大模型中保持端到端精度表现 [2][5] - SageAttention3是首个针对BlackWell架构的全FP4量化即插即用注意力算子,在RTX 5090上达到1040 TOPS速度,比H100上的FlashAttention3快1.65倍 [2] - 该团队还首次提出可训练的8比特注意力(SageBwd)用于大模型训练加速,在微调任务中保持与全精度注意力相同结果 [2] 技术突破 推理加速 - SageAttention系列迭代加速效果:V1(2.1倍)、V2(3倍)、V2++(3.9倍)、V3(5倍) [2] - 在RTX5090上实现HunyuanVideo端到端3倍加速(164s vs 489s),视频质量几乎无损 [5][33] - 算子速度相比FlashAttention2和xformers分别提升5倍和10倍 [22] FP4量化创新 - 采用BlackWell硬件支持的Microscaling FP4量化,选择NVFP4格式(准确率99.52% vs MXFP4的98.37%) [15] - 提出两阶段量化解决P矩阵缩放因子范围狭窄问题,显著提升精度 [15][16] - 算法流程优化实现高效Attention算子,两行代码即可加速任意模型推理 [5] 8比特训练 - 对Q/K/V采用Per-block INT8量化,对P采用无量化Overhead的Per-token量化 [17] - 反向传播中保留dOVT为FP16精度,量化其他四个矩阵乘法 [18] - 在Base Model微调任务中与BF16注意力表现完全一致 [33] 应用效果 - 已应用于多个知名大模型:Vidu、CogvideoX、Mochi、Wan、HunyuanVideo、Flux、Llama3、Qwen等 [1] - 在CogvideoX(2B)上端到端速度从64s提升至27s [33] - 训练加速方面,8比特注意力在微调任务中完全无损,但预训练任务与全精度仍有差距 [34] 硬件适配 - 充分利用BlackWell架构的FP4 Tensor Core,RTX5090速度达FP16 Tensor Core的8倍 [9] - 实现GPU底层CUDA Kernel优化,在算子速度和模型精度上均有显著提升 [21]
一手实测深夜发布的世界首个设计Agent - Lovart。
数字生命卡兹克· 2025-05-13 03:08
产品介绍 - Lovart是一款AI设计类垂直Agent工具,专注于设计领域的任务处理 [1][2][3] - 产品目前处于内测阶段,采用邀请码机制获取使用资格 [2][6] - 界面设计简洁,类似AI Chat界面,但强调行业Know How的重要性 [7][8] 核心功能 - 支持复杂设计任务的分解和执行,例如生成系列插画时能自动匹配风格、创建详细执行计划 [9][11][14][19] - 采用多模型协作机制:优先匹配LoRA模型,其次调用GPT4o、Flux、Gemini等大模型 [17][33] - 提供二次编辑功能,包括放大、扩图、抠图、消除、修复等主流图像处理能力 [35][38] - 支持设计尺寸延展,可将原始设计快速适配不同比例(1:1、3:2、16:9等) [50][52] - 实现图文分离功能,可将AI生成海报转换为可编辑版本 [56][57] - 集成视频生成能力,结合可灵、11labs、suno等工具实现图片转视频并配乐 [58][60][61] 技术特点 - 强调风格匹配的优先级,将设计风格作为最高决策因素 [14][15] - 任务分解能力突出,能将用户Prompt转化为超详细设计规范 [19][23] - 模型调用逻辑合理,根据任务需求智能选择最优解决方案 [17][33] - 支持多模态输出,包括插画、海报、UI设计、视频等 [9][41][43][60] 行业影响 - 重新定义设计工作流,实现从需求到成品的全链条自动化 [64] - 将AI设计输出从"作品"升级为"产品",包含交付资源和资产属性 [64] - 预示垂直Agent的发展趋势,各专业领域可能出现专属Agent解决方案 [64] - 可能改变设计师的职业定义和工作方式 [64] 使用体验 - 生成效果良好,能准确理解并执行复杂设计需求 [9][32][43] - 存在部分细节问题,如语义理解偏差、尺寸生成错误等 [54] - 视频生成能力达到demo水平,但影视级制作仍有提升空间 [64][66] - 整体框架成熟,虽为内测版本但已展现完整产品形态 [3][64]