Workflow
文生图
icon
搜索文档
LeCun、谢赛宁团队重磅论文:RAE能大规模文生图了,且比VAE更好
机器之心· 2026-01-24 09:53
文章核心观点 - 表征自编码器(RAE)作为一种新的文生图模型基础架构,在多个方面系统性超越了当前主流的变分自编码器(VAE)方案,为大规模文生图提供了更优的范式[4] - RAE通过耦合冻结的预训练视觉编码器与轻量化解码器,在从5亿到近百亿参数的多个尺度上,展现出比VAE更快的收敛速度、更高的训练稳定性以及更强的防过拟合能力[4][19][28] - 该技术路径让视觉理解与生成共享同一套高维语义表征空间,不仅简化了模型设计,也为构建多模态统一模型开辟了新的可能性[4][29][34] 架构设计与技术原理 - RAE采用与VAE截然不同的逻辑:直接使用预训练且冻结的视觉表征编码器(如SigLIP-2)将图像转化为高维语义token,仅训练一个轻量化的ViT解码器进行像素重建[6] - 以SigLIP-2 So400M为例,它将图像转化为16×16个token,每个token维度高达1152,远高于主流VAE方案的通道数(通常小于64),为生成提供了高保真度的语义起点[6] - 针对RAE操作极高维度语义表征的特点,研究团队引入了维度敏感的噪声调度平移(Noise Schedule Shift)以解决传统扩散模型噪声调度因维度灾难而失效的数学难题[14][15] - 当扩散Transformer(DiT)规模扩展至十亿参数以上时,RAE框架中原先为增强小模型能力而设计的复杂结构(如宽扩散头、噪声增强解码)被证明是冗余的,可以进行简化[17][21] 数据策略与模型表现 - 研究团队构建了一个约7300万条数据的大规模数据集,涵盖Web图像、高美感合成图像及专门的文本渲染数据,实验发现数据组成比例对模型性能至关重要[9] - 缺乏针对性文本渲染数据时,模型无法还原清晰字形细节;引入文本专项数据后,其在Text域的rFID分数出现质的飞跃(例如,从2.406降至1.621)[9][10] - 在ImageNet、YFCC和文本三个维度的重建保真度评测中,RAE方案已全面超越文生图领域的标杆SDXL VAE,虽稍逊于顶尖的FLUX VAE,但证明了其框架能适配不同预训练目标的视觉编码器[11][13] - 在从0.5B到9.8B参数的多个DiT尺度上,RAE均稳定且大幅度地优于VAE方案,并且在1.5B LLM与2.4B DiT的基准测试中,达到同等生成质量所需时间仅为VAE的四分之一左右[19][23][25] 训练稳定性与扩展性 - RAE展现出显著的收敛速度优势,在GenEval评测中实现了4.0倍加速,在DPG-Bench上达到4.6倍加速[23] - 在对高质量数据集进行精细化微调时,VAE模型在约64个epoch后出现灾难性过拟合,性能断崖式下跌,而RAE即使微调至256甚至512个epoch仍能保持稳定的生成质量,表现出极强的鲁棒性[4][25][28] - 当语言模型骨干从1.5B升级至7B时,RAE模型能更好地利用更丰富的文本表征,获得进一步的性能跨越,这证明了当生成与理解在同一个语义潜空间中对齐时,更大的语言模型能释放更强的生成潜力[25] 潜在影响与未来展望 - RAE的成功标志着潜向扩散模型正从繁复的结构堆砌回归到更简洁、更本质的语义建模[35] - 理解与生成在同一套语义特征空间中运行,为多模态统一模型打开了想象空间,例如,语言模型无需将图像解码为像素即可直接对扩散模型生成的潜变量进行理解和打分[4][29][36] - 实验显示,在加入生成训练后,模型在MME、MMMU等视觉理解榜单上的性能保持完好甚至略有提升,体现了其“理解能力保全”的特性[36]
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
机器之心· 2026-01-15 11:52
文章核心观点 - 香港大学与Adobe Research联合发布了一种名为Self-E的新型文本到图像生成框架,其核心创新在于将训练范式从传统的“轨迹匹配”转变为“落点评估”,从而实现了无需依赖预训练教师模型进行知识蒸馏,即可从零开始训练出支持任意推理步数的模型 [2][7] - 该模型能够在极少的推理步数下生成语义清晰、结构稳定的图像,同时在常规50步设置下保持顶级质量,并且生成质量随步数增加呈现单调提升,实现了“一个模型,适应任意计算预算”的目标 [2][23][28] 技术范式转变 - 传统扩散或流匹配模型学习的是“局部向量场”,即在给定噪声状态下预测下一步方向,这种“轨迹匹配”方法在大步长推理时误差会被放大,导致生成质量下降 [7] - Self-E进行了根本性的范式改变,将训练重心从“每一步走得对不对”转向“落点好不好”,即“落点评估”,通过评估生成结果并给出纠偏方向来提供动态反馈信号 [7][11] 核心训练机制 - Self-E采用两条互补的训练信号:一是从真实数据中学习分布的局部结构,二是通过“自我评估”学习分布层面的正确性 [12][13] - 在“自我评估学习”阶段,模型先进行一次“长距离跳跃”生成一个样本,然后在落点处利用自身当前学到的局部估计产生一个“方向信号”,指导样本如何移动才能进入更高质量、更符合文本的分布区域,该评估信号不来自外部教师,而是来自模型自身的动态估计 [17] - 训练最终通过一个统一的损失函数实现,该函数结合了从数据学习的目标和自我评估的目标 [20][21] 性能表现 - 在GenEval基准测试中,Self-E对比其他方法取得了全面领先,并且性能随步数增加呈现单调提升 [24][25] - 在少步推理区间优势尤其显著,例如在2步设置下,Self-E的得分达到0.7531,相比当时最佳对比方法的0.6338,提升约为+0.12,而多种传统模型在2步下几乎无法生成可用结果 [25] 宏观意义与工程价值 - 从宏观视角看,Self-E将训练过程组织成一个类似强化学习的“环境-智能体”闭环,其内部的评估器角色接近“可查询的学习型奖励模型”,为将强化学习更系统地引入视觉生成训练提供了新的接口 [26][27] - 该框架的工程意义在于,同一个模型检查点可以根据不同场景动态选择推理步数,例如在交互式场景使用1-4步追求即时反馈,在高质量离线渲染时使用50步追求细节上限,同时训练侧绕开了复杂的教师蒸馏流程 [28]
ChatGPT引入PS 用一句话即可修图
北京商报· 2025-12-16 11:11
核心观点 - Adobe宣布将其核心创意软件(Photoshop、Express、Acrobat)集成至ChatGPT平台,用户可通过自然语言指令在聊天界面内直接使用这些工具进行图像美化、设计和PDF编辑,此举旨在触达ChatGPT超8亿的周活跃用户并降低创意工具的使用门槛 [1] - 此次合作是OpenAI将ChatGPT打造为数字服务“入口”战略的一部分,通过集成第三方应用来扩展平台功能,Adobe是继Spotify、Zillow、Figma之后加入该生态的公司 [2] - 尽管通过ChatGPT调用,Adobe强调其生成能力基于自研的Firefly模型,以确保生成内容的商业使用权和版权保障,避免第三方模型的潜在版权争议 [2] - 行业观点认为,AI技术(如OpenAI的GPT-4o)正持续降低高质量图片生成的门槛和成本,有望在广告等下游场景广泛应用,同时AI对生产力效率的提升将持续赋能传媒、数字营销、电商等多个应用领域 [3][5] 公司动态与合作 (Adobe & OpenAI) - **产品集成详情**:Adobe推出适用于ChatGPT的Photoshop、Express和Acrobat,用户可直接在聊天机器人中通过文字描述使用这些工具,例如美化照片、设计信函、编辑PDF,且无需离开ChatGPT界面 [1] - **用户获取与策略**:此次合作为Adobe提供了将其产品展示给ChatGPT超8亿周活跃用户的机会,目标是帮助新手用户轻松上手,若需更强大功能可跳转至独立应用 [1] - **技术实现与用户体验**:在ChatGPT的“扩展模式”下,用户输入自然语言指令(如“把照片背景换成夕阳海滩”)即可自动调用Adobe Express生成初稿,并支持在聊天界面内直接微调色调、字体等参数 [2] - **版权与核心技术**:Adobe强调,即使通过ChatGPT调用,所有生成内容均基于其自研的Firefly系列模型,用户享有商业使用权与版权保障,避免了潜在的第三方模型版权争议 [2] - **OpenAI的平台战略**:集成Adobe应用是OpenAI将更多第三方应用引入ChatGPT的一部分,旨在将其打造为数字服务的“入口”,该应用集成功能于今年10月首次推出 [2] 行业趋势与竞争格局 - **AI图像生成技术进展**:OpenAI发布的GPT-4o在图像生成方面具有更好的文本集成、上下文理解及多样化风格等优势,其“吉卜力风格”图像生成功能曾在社交媒体引发热潮 [3] - **技术应用与影响**:GPT-4o原生图片生成功能被认为跨越了文生图的提示词和效果两大门槛,有望在广告等下游场景广泛使用,降低高质量广告图片的生成成本 [3] - **基础设施需求**:AI生成图片的普及需要巨量推理算力支撑,例如OpenAI GPUs未能广泛支撑用户对GPT-4o图片生成功能的需求,体现了推理算力对AI应用的重要保障作用 [3] - **产品同质化与竞争焦点**:在AI技术成为产品功能迭代基础的情况下,图片编辑产品在技术积累上差别不大,竞争更多体现在功能玩法的丰富以及如何通过营销吸引用户使用和留存 [4] - **AI赋能广泛领域**:AI拉动的生产力效率提升有望持续赋能传媒应用,包括优质内容生产、数字营销、电商、文化科普及版权保护等多个领域的公司均有望受益 [5]
美团开源LongCat-Image模型,在文生图与图像编辑核心能力上逼近更大尺寸的头部模型
新浪财经· 2025-12-08 15:24
公司动态 - 美团LongCat团队于12月8日宣布开源其最新研发的LongCat-Image模型 [1] - 该模型参数规模为6B,通过高性能模型架构设计、系统性的训练策略和数据工程实现 [1] - 模型在文生图与图像编辑核心能力上逼近更大尺寸的头部模型 [1] 技术优势 - LongCat-Image采用文生图与图像编辑同源的架构,结合渐进式学习策略 [1] - 在客观基准测试中,其图像编辑得分与中文渲染能力均领跑参评模型 [1] - 在文生图任务上,GenEval与DPG-Bench的表现证明其相比头部开源与闭源模型具备强竞争力 [1] 市场定位 - 该模型旨在为开发者与产业界提供“高性能、低门槛、全开放”的选择 [1]
BFL 创立一年估值 32.5 亿美金,AI 原生版 Dropbox 来了
投资实习所· 2025-12-02 13:12
产品传播与商业转化 - 图片和视频的传播效果良好 但长期持续使用取决于能否转化为生产力工具或帮助企业及用户赚钱的产品[1] - OpenAI的Sora早期获得大量自发传播 但近期用户使用量已大幅下跌 表明即使是知名公司单独推出新产品也存在挑战[2] - Google将Nano Banana能力整合到现有产品中是明智做法 单独推出产品希望不大[2] Elevenlabs财务表现 - 语音AI公司Elevenlabs过去12个月收入达到1.93亿美元 其中50%来自思科和Twilio等企业客户 另外50%来自YouTuber、播客主播和作家等早期用户[2] - 公司已经实现盈利 利润率约为60%[2] Black Forest Labs融资与估值 - AI图片生成创业公司Black Forest Labs完成3亿美元B轮融资 估值达到32.5亿美元[3] - 公司成立于2024年8月 估值增长迅速[3] - 融资由Salesforce Ventures和Anjney Midha联合领投[3] BFL技术愿景与定位 - 公司致力于构建像素级前沿模型 创造相机无法捕捉的画面 开发理解意图而不仅仅是执行提示的系统[3] - 长期目标是统一视觉感知、生成、记忆和推理 为视觉智能奠定基础[3] - 定位为模型企业 不直接推出面向用户的产品 而是通过API与Adobe、Canva、Meta和微软等公司合作[6] BFL团队背景与技术策略 - 三位联合创始人都是Stable Diffusion系列模型的原始共同创作者 也是潜在扩散模型的先驱[4] - 其研究成果为开源图像生成社区奠定基石 并影响了DALL-E 2/3和Sora等闭源模型的架构[4] - 采用开放权重方式发布核心模型FLUX.2 允许研究人员和开发者免费使用、定制和部署[6] - 技术成为Hugging Face上最受欢迎的图像模型之一 成功将研究成果转化为生产力工具[6] AI原生存储产品 - 有团队开发AI原生版Dropbox 种子轮融资近800万美元[6] - 与Google Drive和Dropbox基于文本的AI搜索不同 该产品愿景是成为文件操作系统 从存储优先变为理解优先[7] - 团队从零开始构建完全不同的技术架构[7]
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
量子位· 2025-08-23 13:06
技术突破 - 清华大学、阿里巴巴AMAP(高德地图)、中国科学院自动化研究所联合推出S²-Guidance方法 通过随机丢弃网络模块动态构建弱子网络实现生成过程自我修正 避免繁琐参数调整并实现即插即用效果 [1][3] - 该方法在文生图和文生视频任务中显著提升生成质量与连贯性 具体表现为动态感增强、细节更精致、伪影减少、艺术表达丰富及物体协调性改善 [4][6][19] 技术原理 - S²-Guidance通过随机模块丢弃策略在前向传播时临时跳过部分网络模块 动态构建轻量化内生子网络 利用模型冗余特性暴露完整模型在高不确定性区域的错误倾向 [10] - 采用负向引导修正机制 通过引导公式"最终引导方向=标准CFG引导方向-子网络预测的高不确定性方向"实现自我纠错 精准规避低质量生成区域 [11][12] 性能优势 - 在SD3模型T2I-CompBench基准测试中 S²-Guidance在颜色(59.63%)、形状(58.71%)、纹理(56.77%)维度得分均超越CFG-Zero(52.70%/52.84%/53.37%)和CFG(53.61%/51.20%/52.45%) [27] - 在VBench视频评测中 Wan1.3B模型总分80.93分超越CFG-Zero(80.71) Wan14B模型总分82.84分超越CFG(82.65) 且在语义一致性(74.65)和对象类别(89.08)指标表现突出 [28] 应用效果 - 视频生成解决CFG两大痛点:物理真实性方面消除卡车横向漂移等失真现象 复杂指令遵循方面完整还原"金线环绕人脸+发光粒子"等复杂描述细节 [24][25] - 计算效率几乎无损耗 实验证明单次随机丢弃(N=1)效果与多次平均相当 通过多步迭代自然平均随机抖动实现高质量输出 [36][37]
Qwen-Image 模型上线基石智算,快来体验超强文本渲染能力
搜狐财经· 2025-08-14 23:48
公司动态 - 青云科技旗下基石智算CoresHub率先上线20B参数的MMDiT模型Qwen-Image,该模型由阿里通义千问团队开源[1] - Qwen-Image是Qwen系列首个文生图基础模型,在复杂文本渲染、图像编辑、多行布局等方面表现突出[1] - 该模型适用于通用图像生成、艺术风格创作及海报设计等场景[1] - 基石智算提供强大算力支持与便捷平台服务,帮助用户快速体验Qwen-Image[1] 技术亮点 - Qwen-Image具备超强文本渲染能力,支持中英文多行排版与段落级布局,实现高度保真视觉输出[2] - 模型通过强化多任务训练范式,在图像编辑中能精准修改目标区域并保持整体一致性[2] - 在多项公开基准测试中取得业内顶尖(SOTA)成绩,验证其卓越综合实力[2] 应用场景 - 可生成西部酒吧门口的柴犬形象,包含手写体文字与褪色英文标语等细节[9] - 支持创作云端棉花糖城堡场景,包含曲奇大门、巧克力文字等元素[11] - 能呈现复古街机厅像素风格画面,包含霓虹灯牌与日文贴纸等设计[12] - 可生成海底图书馆场景,包含发光海藻文字与羊皮卷轴等细节[12] - 支持创作太空飞船驾驶舱场景,包含多语言混合提示与俄文警告标识[13] 使用流程 - 登录coreshub平台进入模型广场选择Qwen-Image进行部署[3] - 部署时选择单卡4090D资源类型并复制外网链接访问[4] - 在Comfy UI页面加载成功后选择Qwen-Image模板并输入提示词[6]
“过气”的Sora,凭什么想做AI版的抖音?
新财富· 2025-06-24 16:10
Sora的战略转型与AI社交趋势 - OpenAI通过Sora开辟视频大模型赛道,但初期因产品延期导致竞争格局反转,国产AI视频模型如快手可灵1.0和MiniMax海螺AI迅速抢占市场[1][2][3][4] - Sora从视频生成工具转型为AI社交平台,新增图像生成模块GPT-Image-1,上线一周吸引1.3亿用户,日均生成1亿张图像,带动付费用户增长[15][16][17][18] - 新版Sora强化社交功能:提高图片作品占比、增加推荐/点赞/复制等交互组件、支持提示词复用和内容公开分享,接近完整图像社区形态[21][22][23][24] AI社交平台的行业逻辑 - 头部AI公司如马斯克xAI、月之暗面Kimi、OpenAI均布局社交领域,核心动机包括获取用户反馈提升模型能力及构建流量入口[7][8][10][11][12][40] - 社交平台通过UGC内容形成数据飞轮,Meta、Google、抖音已验证流量变现模式,OpenAI创始人Sam Altman认为10亿用户平台价值超越顶尖模型[43][44] - OpenAI 2024年营收40亿美元但亏损50亿美元,依赖ChatGPT订阅服务(2000万付费用户,年化营收50亿美元),需拓展高级会员提升收入[45][48][49][52] 图像/视频的社交属性与竞争格局 - GPT-Image-1通过高度风格化图像(如吉卜力画风)突破文生图审美瓶颈,满足个性化表达需求,实现跨文化传播[27][29][30][32] - 移动互联网时代Instagram、Snapchat等成功案例证明图像/视频是社交核心载体,当前短视频人均单日使用时长达138.4分钟,远超聊天应用[33][34][36][37][62] - AI社交面临传统社交巨头的阻击(如抖音整合豆包、微信接入元宝),新入局者需依赖AI技术突破存量竞争壁垒[56][60][61][64][65]
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
前瞻网· 2025-06-01 13:09
多模态大模型技术发展 - 行业聚焦视觉等重点模态领域突破,探索"Any-to-Any"大模型技术路径,如Google Gemini和Codi-2处于早期阶段,需实现跨模态知识学习与信息对齐 [1] - 当前主要工作集中在Transformer架构向图像、视频、3D等模态扩展,完善单模态感知/生成模型后再推进跨模态融合 [1] 图像模型进展 - 2023年前已建立CLIP、Stable Diffusion、GAN等基础模型,衍生Midjourney、DALL·E等成熟文生图应用 [2] - 近年重点探索ViT、DiT等视觉Transformer架构,推动GLIP、SAM、GPT-V等LLM与视觉模型融合成果 [2] 视频模型技术 - 基于图像生成模型(如扩散模型)叠加时间维度对齐,形成VideoLDM、W.A.L.T.等文生视频方案 [5] - Sora采用Diffusion Transformer架构实现突破性视频生成,首次展现"智能涌现"特征 [5] - 主流技术路径为文生图模型+时序对齐,辅以插帧超分、噪声对齐、LLM增强描述等方法提升质量 [5] 3D模型开发现状 - 技术路线延伸自2D图像生成(GAN/Diffusion/VAE等),产生3D GAN、MeshDiffusion、Instant3D等早期成果 [8][9] - 数据表征以NeRF(神经辐射场)为核心技术,支持网格、点云、体素等多种形式 [9] - 数据集稀缺,ShapeNet含5.1万3D CAD模型,Objaverse-xl达1000万对象规模 [9] 音频模型创新 - Transformer架构推动Whisper large-v3、VALL-E等项目突破,增强多语种/自然声/零样本学习能力 [11] - Omni模型通过neural audio codec编码,结合扩散模型实现音频合成技术迭代 [11]
鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了
量子位· 2025-05-16 11:39
腾讯混元图像2.0模型发布 - 腾讯发布混元图像2.0模型(Hunyuan Image 2.0),首次实现毫秒级响应,支持边说边画实时生成,用户描述与绘制过程同步进行,体验流畅[1] - 模型支持实时绘画板功能,用户可手绘元素并辅以文字说明,系统根据草图实时生成图像[2][3] - 提供多种交互方式包括语音输入(中英文)和上传参考图,参考图可提取主体或轮廓特征并调整约束强度[18][19][21] 模型性能特点 - 模型参数相比HunyuanDiT提升一个数量级,更大模型尺寸保障性能上限[37] - 采用自研超高压缩倍率图像编解码器,优化信息瓶颈层并强化对抗训练,显著降低生图时耗[38] - 适配多模态大语言模型(MLLM)作为文本编码器,语义遵从能力大幅提升,在GenEval测试中指标远超竞品[39][40] 技术创新点 - 通过强化学习后训练(包括通用后训练与美学后训练)提升图像生成真实感[41] - 采用自研对抗蒸馏方案,基于隐空间一致性模型实现少步高质量生成[42] - 模型经过全尺度多维度强化学习训练,在多轮图像生成和实时交互方面表现突出[36][46] 应用功能展示 - 支持16:9比例生图效果更佳,保持角色一致性能力优秀,输入补充描述时主体特征稳定[12][13] - 可处理多种风格包括真实场景、动漫风、编织风等,提供画面优化功能自动调整构图、景深和光影[14][16][27] - 示例显示上传简笔画可一键上色,上传蛋糕照片可结合文本指令生成新图像[22][25] 行业动态 - 腾讯混元团队预告将发布原生多模态图像生成大模型,重点关注多轮生成和实时交互体验[45] - 模型技术细节将通过后续技术报告披露,官网已开放访问[43][47]