Workflow
文生图模型
icon
搜索文档
刚刚,全球AI生图新王诞生!腾讯混元图像3.0登顶了
量子位· 2025-10-05 13:43
文章核心观点 - 腾讯混元图像3 0模型在LMArena文生图竞技场榜单中位列全球第一,超越了谷歌、字节跳动和OpenAI等公司的模型[1][7] - 该模型是业界首个开源的工业级原生多模态生图模型,参数规模高达800亿,展现了公司在AI领域的厚积薄发[10][13] - 模型采用创新的广义因果注意力和二维位置编码等技术,实现了文本和图像的统一理解与生成,在多项评测中媲美甚至超越行业顶尖闭源模型[12][40][63][65] 模型性能与排名 - 在LMArena文生图榜单中,腾讯混元图像3 0以1167分的成绩排名第一,谷歌Gemini 2 5 Flash Image Preview以1151分位列第二[1] - 该榜单由美国加州大学伯克利分校推出,采用基于人类真实偏好的盲测机制,累计总投票数达3,159,029次,被公认为国际权威的AI模型竞技场[4][5][6] - 模型在人工评测GSB中相较于Seedream 4 0胜率为1 17%,相较于Nano Banana胜率为2 64%,相较于GPT Image胜率为5 00%[65] 技术架构创新 - 模型采用原生多模态架构,能够通过单一模型处理文字、图片、视频与音频等多种模态的输入与输出,无需依赖多个组合模型[12][17] - 引入广义因果注意力机制,有效整合了文本的自回归生成特性和图像的全局上下文捕捉能力[41][42] - 实现广义二维RoPE位置编码,确保与预训练语言模型的向后兼容性,同时支持图像tokens的二维位置处理[46][48] - 创新自动分辨率预测功能,模型可根据上下文自动决定合适的图像形状,无需用户确定性输入[50][51] 模型能力展示 - 模型具备强大的语义理解能力,能够响应复杂长文本并利用世界知识进行推理,例如生成中秋节海报、十二生肖表情包等创意内容[19][22][24] - 可处理复杂概念和场景生成,如“林黛玉大战孙悟空”、完全由火焰构成的猫咪以及具有高级艺术感的香水广告大片[25][28][31][33] - 支持多任务处理,包括解方程并展示计算过程、生成复古票券拼贴画以及科技感和人物特写图像,细节处理精细[68][70][72][74] 数据构建与训练策略 - 采用三阶段过滤流程从超过100亿张原始图像中筛选出近50亿张高质量、多样化图像用于训练[53] - 构建中英双语、分层级的描述体系,并集成OCR和命名实体识别代理来保证描述的真实性[55] - 预训练过程分为四个渐进式阶段,数据从粗到精筛选,VAE编码器图像分辨率逐步提高,并引入思维链生图任务[56][59] - 通过SFT、DPO、MixGRPO、SRPO和ReDA等多阶段后训练优化模型,提升图像真实感与清晰度[59][60] 行业发展与影响 - 文生图领域正从传统DiT架构转向原生多模态模型架构,混元图像3 0的开源为行业提供了新的技术路径[16] - 模型登顶权威榜单标志着公司在AI生成式模型领域已达到全球领先水平,对行业竞争格局产生重要影响[1][67] - 模型开源发布可促进AI社区发展,开源仓库和Hugging Face平台已开放访问,助力行业技术普及与创新[78]
可能是目前效果最好的开源生图模型,混元生图3.0来了
量子位· 2025-09-30 20:22
模型发布与核心定位 - 腾讯混元发布并开源原生多模态图像生成模型HunyuanImage 3.0,参数规模高达800亿,是目前参数量最大的开源生图模型[1] - 该模型是首个开源工业级原生多模态生图模型,将理解与生成一体化融合,效果对标业界头部闭源模型,堪称开源领域最强图像生成模型[1] - 模型支持多分辨率图像生成,具备强大的指令遵从、世界知识推理和文字渲染能力,出图具有极致的美学与艺术感[1] 模型能力与生成效果 - 模型继承了Hunyuan-A13B的世界知识,具备原生世界知识推理能力,例如能根据“解方程组5x+2y=26,2x-y=5,给出详细过程”的提示词解题并生成步骤图[4][5] - 能够驾驭复杂提示词,如“用一幅图介绍堆排序算法流程,用小黄脸的表情包可视化,表情越开心代表数值越大,并提供伪代码,手帐风格,小红书图片样式”[7] - 通过对文字渲染数据的定向补充和借助HunyuanOCR进行文字识别的能力提升,3.0版本实现了接近头部模型的文字渲染能力,便于海报、表情包制作等创意玩法[7] - 经过与设计师配合的后训练打磨,模型形成了自身的美学风格,能够进行四宫格图生成、漫画创作、不同材质模型设计及素描教程制作[11][14] 核心技术方案 - 新一代模型基于Hunyuan-A13B(总参数量800亿,激活参数量130亿),采用原生多模态、统一自回归框架,将文本理解、视觉理解与高保真图像生成深度融合[17] - 不同于将LLM仅作编码器的传统DiT路线,混元3.0以LLM为核心底座,天然继承强大的语言与推理能力,并在预训练阶段深度混合LLM数据、多模态理解与生成数据,形成“理解反哺生成、语言驱动视觉”的正反馈闭环[19] - 模型采用VAE+ViT的联合特征作为图像理解输入,在图像生成侧将Diffusion建模无缝嵌入LLM架构,实现文本和图像的灵活交互,覆盖从创作到编辑的完整链路[23] 关键技术创新 - 引入广义因果注意力,在保持文本token遵循因果型注意力的同时,对图像token赋予全局注意力能力,形成兼顾“语言因果推理”与“图像全局建模”的注意力矩阵[25][26] - 采用“图文交织”的训练范式提升长上下文理解与生成能力,训练序列可包含多个加噪图像,并通过专用attention mask确保训练与推理的一致性[28] - 将LLM中的一维位置编码扩展为二维位置编码,并保证完全兼容原来文本token的一维编码,以最大程度保持原始LLM的语言能力[30] 数据处理与训练策略 - 采用全面的三阶段过滤流程,从超过100亿张原始图像中筛选出近50亿张高质量、多样化图像,并补充了知识增强、文本相关等专业数据集[32] - 构建了中英双语、分层级的图像描述体系,并集成专门的OCR和命名实体识别代理来保证描述的真实性,还专门构建了推理数据集以激活模型的思维链能力[34] - 采用渐进式四阶段预训练,从256像素分辨率开始逐步提升至1024像素,并引入复杂交错图文数据及思维链数据,后续进行指令微调和多阶段后训练[36][37][38] 模型性能评估 - 模型采用机器指标和人工评测两种方式评估效果,其中SSAE指标构建了500道评测题目并按12个细分要点拆解,HunyuanImage 3.0在各细分要点上都媲美甚至超越业界领先模型[40][43] - 在人工评测GSB中,HunyuanImage 3.0相较于Seedream 4.0胜率为1.17%,相较于Nano Banana胜率为2.64%,相较于GPT-Image胜率为5.00%,相较于上一版本模型HunyuanImage 2.1胜率为14.10%[46] - 评测结果表明HunyuanImage 3.0是足以媲美业界领先闭源模型的开源模型[47]
华安研究2025年8月金股组合
华安证券· 2025-07-30 16:50
报告行业投资评级 未提及 报告的核心观点 报告推荐华安证券2025年8月金股组合,涵盖医药、科技、食饮等多个行业,从市场资金配置、基本面、业务中标情况、技术能力、业务拓展等多方面阐述各公司投资价值及增长潜力 [1] 根据相关目录分别进行总结 医药行业(开立医疗) - 从市场资金看,设备板块今年涨幅小会增加配置;从基本面看,2024Q4以来终端招采持续恢复,预计2025Q3反映在财报 [1] - 公司超声、内镜、外科腔镜上半年中标情况好,超声中标增幅超100%,消化内镜约28%,外科腔镜2025年上半年中标超7000万,上半年预计中标份额6.53亿,同比增119% [1] 科技行业(快手) - 具备全球tier 1文生图模型,有望重估主业,可灵商业化进程加速,业绩稳定增长 [1] 食饮行业(东鹏饮料) - 25年茶饮市场旺盛,公司平台化能力深化、港股上市驱动国际化战略,今明年核心增量为平台化深化和国际化布局 [1] - 主业东鹏特饮有机增长,新品补水啦/果之茶放量,第二增长曲线完备,平台化能力有望获市场认可 [1] - 港股上市带动出海加速,打开中长期收入天花板;成本红利和规模效应使毛利率提升,盈利能力处于上升通道 [1] 电子行业(精智达) - 公司是合肥长鑫产业链扩产FT CP测试机及老化测试设备重要供应商,2025年Q1落实FT测试机订单,半导体设备营收规模按股权激励目标达5亿,是2024年2.4亿的2倍 [1] - 公司从面板测试设备收入主导转变为2025年半导体设备占比50%,长鑫向HBM3迈进,公司高速FT测试机和二代CP测试机未来落地将打开成长空间 [1] 军工行业(中航沈飞) - 2025年是十四五规划决胜之年,公司将完成全年任务,努力成为国内领军航空装备企业 [1] 通信行业(广和通) - 端侧AI领先,绑定字节,有AI玩具解决方案及ODM业务;布局具身智能机器人,供货全球头部机器人公司 [1] 汽车行业(凌云股份) - 有新能源汽车热成型、电池壳双引擎驱动,机器人传感器业务加速推进,有望打开新成长空间 [1] 机械行业(杭氧股份) - 成立海外BU和象山产能,海外订单增厚业绩;管道气投放落地,气体量增长 [1] - 钢铁及光伏行业稼动率和盈利性提升,零售气有望见底回升;海外巨头市值高,行业天花板高,成长空间广阔 [1] 化工行业(兴发集团) - DMC草甘膦价格弹性大,化肥Q3出口向好,新能源Q3扭亏,25Q1业绩环比复苏,静待需求回暖 [1] 有色行业(北方稀土) - 国内政策提升稀土定价权,价格有望上行,行业利润提升;布局高增长领域,磁材订单饱满,永磁电机销量同比增120% [1]
Black Forest开源新模型,只用文本实现一键PS
快讯· 2025-06-27 06:41
开源模型发布 - Black Forest开源文生图模型FLUX 1-Kontext开发者版本 [1] - 模型功能支持通过自然语言实现一键P图 [1] - 在人类偏好评估 指令编辑 文本插入与编辑 样式参考等基准测试中超越OpenAI的GPT-image-1模型 [1] 技术性能 - FLUX 1-Kontext成为当前最强开源文生图模型之一 [1] - 测试数据由Black Forest官方公布 [1]
OpenAI 神秘硬件细节曝光,我用 AI 还原了真机,注入苹果设计灵魂
36氪· 2025-05-27 12:43
OpenAI与苹果前设计官合作的神秘AI硬件 - OpenAI CEO奥特曼与苹果前首席设计官艾维联合创立io公司 计划2024年末发布首款无屏幕AI硬件 目标量产1亿台 [1] - 产品设计特点包括无屏幕 内置摄像头和麦克风 外形类似iPod Shuffle 挂脖式设计 尺寸大于AI Pin 可与智能手机及PC联动 [1] - 目前市场猜测产品形态多样 包括GPT版Apple Watch 便携桌面AI摄像头等 AI生成图在X平台引发近9000人次围观 [4][6][1] Google Imagen 4图像生成技术突破 - Imagen 4在细节处理上显著提升 支持2K分辨率 优化皮肤 毛发 复杂纹理表现 生成速度将比前代快10倍 [10][18] - 模型擅长写实风格 如金毛狗沙滩找贝壳案例中 毛发光泽 光影分布 眼神指向等细节优于Imagen 3和豆包Seedream3.0 [24][26] - 新增抽象风格创作能力 改进拼写排版质量 适用于贺卡 海报 漫画等场景 支持多格漫画连续叙事和像素风创作 [11][12][14][16] Gemini多模态AI设计应用案例 - Gemini 2.5 Flash可在10秒内生成电子屏帆布包设计图 包含大中小型号标注 设计线条流畅保留手绘感 [28][31] - 模型实现产品海报配色局部修改 但需精确prompt控制 文字排版美观度高 整体生成可控性较强 [36][38] - 支持真人模特替换为卡通形象 生成社交媒体邀请函 自动添加emoji和tag词条宣发文案 [40][42]