Workflow
图像生成模型
icon
搜索文档
智谱联合华为开源图像生成模型GLM-Image,24小时登顶Hugging Face榜单
新浪财经· 2026-01-16 08:45
模型发布与技术合作 - 智谱与华为联合开源新一代图像生成模型GLM-Image [1][2] - 该模型基于华为昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程 [1][2] 模型性能与市场反响 - 模型开源不到24小时即冲上全球知名AI开源社区Hugging Face榜单的全球第一 [1][2] - 在Hugging Face平台上,该模型在文本到图像类别中更新约4小时前,已获得至少2.44k的关注度 [3] 技术创新与架构 - GLM-Image采用了创新的“自回归+扩散解码器”混合架构,不同于开源常用的LDM方案 [1][2] - 该架构兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题 [1][2] - 模型尤其擅长汉字生成任务,向探索以Nano Banana Pro为代表的“知识+推理”的认知型生成模型迈出了重要一步 [1][2] 训练验证与国产化可行性 - 实际训练性能足以达到相应计算设备的汇报性能上限 [1][2] - 验证了在国产全栈算力底座(昇腾硬件+昇思框架)上训练前沿模型的可行性 [1][2]
港股午评|恒生指数早盘跌0.55% 有色资源板块逆市走高
智通财经· 2026-01-15 12:08
港股市场整体表现 - 恒生指数下跌0.55%,下跌149点,收报26850点 [1] - 恒生科技指数下跌1.83% [1] - 早盘成交额为1639亿港元 [1] 钨行业动态 - 佳鑫国际资源股价上涨超过5%,再创新高 [1] - 黑钨精矿价格突破每吨50万元人民币 [1] - 多家钨企业上调长单报价 [1] 镍行业动态 - 印尼镍矿配额出现扰动 [1] - 力勤资源股价上涨超过10% [1] - 中伟新材股价上涨超过9% [1] 中国罕王公司动态 - 股价大幅波动,最终上涨8% [1] - 罕王黄金分拆上市计划已终止 [1] - 公司计划更名为“罕王黄金” [1] 海昌海洋公园公司动态 - 股价上涨超过10% [1] - 上海海昌海洋公园元旦假期首日客流量同比增长60% [1] 智谱公司动态 - 股价逆市上涨超过4% [1] - 公司宣布联合华为开源新一代图像生成模型 [1] 化肥行业与公司动态 - 中国心连心化肥股价再次上涨超过4% [1] - 全球尿素供应可能出现缺口 [1] - 公司在新年伊始密集回购股份 [1] 卧安机器人公司动态 - 股价上涨超过7% [1] - 公司近日发布了人形具身智能机器人onero [1] 覆铜板行业动态 - 建滔积层板盘中股价上涨近6% [1] - 公司近期宣布上调产品价格 [1] - 涨价预期将成为覆铜板行业主旋律 [1] 丘钛科技公司动态 - 股价回吐超过7% [1] - 花旗指出公司去年净利润低于该行预期 [1] 康龙化成公司动态 - 股价下跌超过5% [2] - 公司拟以折让8.5%的价格进行配股 [2] - 配股预计净筹资近13.2亿港元 [2] 在线旅游行业动态 - 携程集团-S股价大跌超过19% [2] - 公司因涉嫌垄断被市场监管总局立案调查 [2] - 同程旅行股价下跌超过11% [2]
智谱逆市涨超6% 日前宣布联合华为开源新一代图像生成模型
智通财经· 2026-01-15 11:09
公司股价与市场表现 - 智谱公司股价逆市上涨,截至发稿时涨幅达6.39%,报229.8港元,成交额为3.35亿港元 [1] 核心产品与技术进展 - 公司联合华为开源新一代图像生成模型GLM-Image,该模型基于昇腾Atlas800T A2设备和昇思MindSpore AI框架完成全流程训练 [1] - GLM-Image是首个在国产芯片上完成全程训练的SOTA多模态模型,实现了图像生成与语言模型的联合 [1] - 在API调用模式下,模型生成一张图片的成本仅需0.1元 [1] 机构观点与公司优势 - 东吴证券认为,作为纯大模型公司,其受益于云端规模效应和Agent/编程场景红利 [1] - 机构看好公司在本土大模型技术实力、开源生态布局以及政企本地化落地能力方面的优势 [1] - 公司有望受益于中国大模型行业从本地化部署向云端服务转型的长期趋势 [1]
刚刚,智谱和华为搞波大的:中国首个国产芯片训练出的SOTA多模态模型!
量子位· 2026-01-14 14:32
文章核心观点 - 智谱AI与华为合作,成功推出并开源了新一代图像生成模型GLM-Image,该模型是中国首个全程在国产芯片(华为昇腾A2)上完成训练的SOTA多模态模型,在复杂视觉文字生成和长文本渲染方面表现卓越,且API调用成本极低[1][7][36][44] 模型性能与技术亮点 - GLM-Image在CVTG-2K(复杂视觉文字生成)和LongText-Bench(长文本渲染)双榜单中均位列第一,尤其在文字准确率(Word Accuracy)上达到0.9116,归一化编辑距离(NED)达到0.9557,显著优于其他开源及闭源模型[5][6] - 模型采用创新的“自回归(9B参数)+ 扩散解码器(7B DiT参数)”混合架构,结合了自回归模型在理解语言与规划布局上的优势,以及扩散模型在细节渲染上的长处,从而能精准处理包含复杂文字和布局的图像生成任务[38][39][40][49] - 模型原生支持从1024x1024到2048x2048的任意比例和分辨率图像生成,无需裁剪或重绘,可直接生成适配各种社交媒体平台和商业用途的图片[21][53][54][56] 国产化训练与算力突破 - GLM-Image的整个训练流程,包括海量数据预处理、大规模预训练以及RLHF(人类反馈强化学习)后训练,全程基于华为昇腾A2芯片算力集群完成,证明了国产算力底座具备支撑前沿、复杂模型训练的能力[36][44][47][48] - 为实现高效训练,智谱与华为深度合作,对Mindspeed-LLM框架进行了深度优化,包括针对RL训练流程的专项优化、算子级深度重构以及利用昇思MindSpore框架实现计算与通信的完美并行,解决了国产芯片在复杂后训练中的适配问题,提升了大规模集群训练的稳定性和效率[45][47][50][51] 应用场景与成本优势 - GLM-Image尤其擅长中文文字渲染,能精准生成包含复杂汉字的海报、插画、AI手抄报等,解决了AI生图领域长期存在的“不识字”痛点[1][8][9][10] - 模型在多种实际应用场景中表现出色,包括生成符合“小红书”风格的社交媒体封面、具有艺术感的商业广告大片、逼真的人物摄影以及影视剧照风格的图像[12][13][17][22][27][28][32] - 该模型的API调用价格极具竞争力,生成一张图片的成本仅为0.1元人民币,为中小企业和开发者提供了极高性价比的AI生图接入方案[7][21][60] 行业意义与开源价值 - GLM-Image的成功开发与开源,打破了高性能图像生成模型对国外芯片和技术的依赖,为国内AI开发者提供了强大的信心和可行的技术路径[36][57][58][60] - 作为开源模型,GLM-Image不仅公开了模型权重,也分享了其创新的混合架构思路,对推动下一代图像生成技术的研究具有重要价值[58][60] - 该组合标志着“国产芯+国产模型”在AI关键领域取得了实质性突破,展示了从硬件到软件的全栈自主创新能力[1][7][48]
阿里Z-Image登顶开源图像生成模型榜单:1秒生图 千图仅需5美元
新浪财经· 2025-12-23 11:33
模型性能与市场地位 - 阿里6B参数的Z-Image Turbo超越32B参数的FLUX.2,登顶全球权威AI基准测试平台Artificial Analysis的开源图像生成模型榜单,成为当前最强开源图像生成模型 [1] - Z-Image Turbo的ELO评分达到1152分,刷新了该榜单的纪录 [1] - 该模型在H100部署环境下仅需1秒即可生成媲美百亿参数模型效果的图片 [2] - 模型支持16GB显存的消费级显卡部署,大幅降低了硬件门槛 [2] 成本与商业化 - Z-Image Turbo已在阿里云百炼平台上线,生成1千张图片的API定价为5美元,价格极具竞争力 [1] - 与榜单中其他主要开源模型相比,其定价显著低于FLUX.2的12美元/千张、腾讯混元3.0的100美元/千张以及HiDream-11的24美元/千张 [2] 技术架构与创新 - 模型采用单流扩散Transformer架构,将文本、图像潜变量与时间步条件统一为单序列输入,实现了跨模态融合,显著提升了参数利用率 [5] - 在推理层面,通过解耦式蒸馏与强化学习训练,将原本20步以上的推理流程缩短到8步,有效提升了图像生成速度 [5] - 模型集成了提示词增强器,能够先理解复杂任务再生成图片,例如能精准理解并生成匹配“一道残阳铺水中,半江瑟瑟半江红”此类诗句意境的图像 [5] 生成效果与能力 - 模型大幅提升了图像的真实感,能够精细还原皮肤纹理、发丝、服装材质等细节 [3] - 增强了中英双语文本渲染能力,即使在小字号、复杂排版或海报设计等高难度场景下,也能保持文字清晰、版式自然 [3] 市场反响与采用情况 - Z-Image Turbo于11月底面向全球开源,开源首日即登顶Hugging Face热榜第一位,并连续三周霸榜 [7] - 开源不到一个月,该模型的下载量已超过400万次,成为近期最受欢迎的图像生成模型 [7] - 业内人士评价该模型是业界性能最好、生成速度最快、价格最便宜的图像生成模型之一 [1]
通义千问推出全新图像生成模型Qwen-lmage-Layered
北京商报· 2025-12-22 19:26
公司动态 - 通义千问于12月22日宣布推出全新图像生成模型Qwen-lmage-Layered [1] - 新模型采用自研创新架构,可将图片“拆解”成多个图层 [1] - 分层结构赋予图像内在可编辑性,每个图层可独立操作而不影响其他内容 [1] - 该架构天然支持高保真的基本编辑操作,例如缩放、移动和重新着色 [1] - 通过将不同元素物理隔离到不同图层,实现了高保真的编辑效果 [1] 技术进展 - 新模型Qwen-lmage-Layered采用了分层表示技术 [1] - 该技术实现了图像元素在图层层面的物理隔离 [1]
阿里推出全新图像生成模型Qwen-lmage-Layered
第一财经· 2025-12-22 18:07
公司产品发布 - 阿里巴巴旗下通义千问推出全新图像生成模型Qwen-lmage-Layered [1] - 新模型采用自研创新架构,可将图片“拆解”成多个图层 [1] - 分层结构赋予图像内在可编辑性,每个图层可独立操作而不影响其他内容 [1] 产品技术特性 - 分层结构天然支持高保真的基本编辑操作,例如缩放、移动和重新着色 [1] - 通过将不同元素物理地隔离到不同的图层中,实现了高保真的编辑效果 [1]
又一国产图像大模型开源,实测连续P图绝了,中文渲染是短板
36氪· 2025-12-08 18:47
公司产品发布 - 美团正式发布并开源图像生成模型LongCat-Image,这是一款参数规模为6B的模型,重点瞄准文生图与单图编辑两大核心场景 [2] - 该模型在图像编辑能力上达到开源SOTA水准,核心优化集中在“编辑可控性”和“中文文字渲染”两项能力上 [2] - 公司同步提供了多种使用方式,包括移动端的LongCat APP以及网页端入口,模型权重与代码已在Hugging Face和GitHub平台开源 [2] 模型技术架构与性能 - 模型采用文生图与图像编辑同源的统一架构,通过渐进式学习策略,在6B参数规模下兼顾指令遵循精准度、生图质量与文字渲染能力 [4] - 训练路线基于文生图中期训练模型初始化,并采用多任务联合学习机制来避免编辑能力在后训练阶段被压缩 [6] - 在GEdit-Bench、ImgEdit-Bench等多个编辑类基准测试中取得了开源SOTA成绩 [6] - 针对中文文字渲染,模型采用覆盖8105个规范汉字的合成字形数据进行预训练,并在SFT阶段引入真实世界文本图片,在ChineseWord评测中取得90.7分,领先于现有开源模型 [8] - 在人类主观评分维度上,LongCat-Image在文本对齐、视觉真实度与美学质量等多个子项中的表现已接近Seedream4.0等商业模型水平 [8] - 在图像编辑任务的并列对比评估中,LongCat-Image-Edit在综合质量与一致性两项关键指标上,对NanoBanana和Qwen-Image-Edit等模型均取得较高胜率 [11] - 整体来看,该模型在图像编辑任务上已逼近部分闭源模型水平,在文生图基础能力上也保持在开源头部阵营 [11] 模型实测表现与能力评估 - 在实际体验中,模型在连续改图、风格变化和材质细节上表现较好,能够保持角色结构稳定,完成多轮风格与材质的迁移 [12][16] - 在产品级渲染测试中,模型在多种现实光照场景下的质感表现相对稳定,细节表现准确,更接近商业产品渲染效果 [22] - 在电影海报生成场景中,模型对参考图的继承能力较为稳定,中英文主标题表现较为清晰,但在“小字”区域等复杂排版场景下,中文文字渲染仍存在不稳定性,会出现乱码与英文混杂的问题 [20] - 在涉及复杂UI设计、游戏界面生成等任务时,模型的审美暴露出短板,整体风格偏向陈旧,与当下主流游戏产品存在明显代差 [25] - 综合测试结果表明,模型在改图与产品渲染类任务中的可用性更高,而在游戏界面与复杂排版场景中的表现相对一般 [31] 行业竞争与战略定位 - 美团的LongCat-Image模型主要对标了Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流开源与闭源生图模型 [2] - 公司并未试图用更大的参数规模正面冲击旗舰级生图模型,而是明确选择在可控性、连续编辑和中文渲染这几个方向上深挖 [32] - 图像模型的竞争焦点,正在快速向“能否真正进入设计、产品、品牌等具体生产流程”的实用能力集中 [32]
后生可畏,何恺明团队新成果发布,共一清华姚班大二在读
36氪· 2025-12-04 10:21
模型性能与核心突破 - 何恺明团队推出Improved MeanFlow (iMF),成功解决了原始MeanFlow (MF)在训练稳定性、指导灵活性和架构效率上的三大核心问题 [1] - 在ImageNet 256x256基准测试中,iMF-XL/2模型在1-NFE(单步函数评估)中取得了1.72的FID成绩,相较于原始MF的3.43 FID,性能提升了50% [2][19] - iMF在2-NFE时的FID达到1.54,进一步缩小了单步模型与多步扩散模型(FID约1.4-1.7)的性能差距 [20] 技术改进细节 - **训练稳定性**:iMF通过重构预测函数,将训练目标重新表述为更稳定的瞬时速度损失,成功将训练流程转换为一个稳定的标准回归问题,解决了原始MF因“目标自依赖”导致的优化不稳定问题 [4][8][11] - **指导灵活性**:iMF通过将无分类器指导(CFG)的指导尺度内化为一个可学习的条件输入,在训练时从偏向较小值的幂分布中随机采样,从而在推理时解锁了CFG的全部灵活性,允许调整尺度以优化图像质量或多样性 [12] - **架构效率**:iMF引入了高效的上下文内条件作用架构,将所有条件编码成多个可学习的Token并与图像Token拼接输入Transformer,移除了参数量巨大的adaLN-zero模块,使得iMF-Base模型参数量从131M降至89M,尺寸减小了约1/3 [15][17] 模型效率与参数对比 - iMF系列模型在显著提升性能的同时,优化了模型效率,例如iMF-B/2模型参数量为89M,计算量为24.9 Gflops,FID为3.39,而对应的原始MF-B/2模型参数量为131M,计算量为23.1 Gflops,FID为6.17 [3][19] - iMF-XL/2模型参数量为610M,计算量为174.6 Gflops,在1-NFE下FID为1.72,其性能优于许多从预训练多步模型中蒸馏而来的快进模型 [19][22] 研究团队与背景 - 论文一作为耿正阳(CMU博士生),共同一作为清华姚班大二学生Yiyang Lu,尾作为MIT终身副教授何恺明,其他合作者包括Adobe研究员Zongze Wu、Eli Shechtman及CMU机器学习系主任Zico Kolter [3][23][25][28][30][31] - 该研究部分工作在MIT期间于何恺明教授指导下完成,相关前作MeanFlow已入选NeurIPS 2025 Oral [27][33]
6B文生图模型,上线即登顶抱抱脸
量子位· 2025-12-01 12:26
模型发布与市场表现 - 阿里通义发布全新6B参数图像生成模型Z-Image,首日下载量高达50万次 [1] - 模型上线不到两天即登顶HuggingFace两个榜单第一 [1] - 模型虽小但出图质量不输同期发布的FLUX.2,在画质、文本、推理等方面达到SOTA级别 [3] 模型版本与技术特点 - Z-Image-Turbo版本已开源,参数量约6B,在写实风格图像生成和中英文文本精准渲染方面表现较好 [8] - Z-Image-Edit版本针对图像编辑任务微调,可上传图片并通过自然语言指令进行精确修改 [8] - Z-Image-Base版本为未压缩的完整基础模型,面向开发者和研究者 [8] - 模型采用可扩展的单流DiT架构,将文本token、视觉语义token和图像VAE token统一处理,减少参数冗余和计算浪费 [35] - 通过Decoupled-DMD蒸馏技术,仅需8次函数评估即可生成高清图像,大幅提升速度 [39][40] 图像生成能力评估 - 在真实感和美学处理上表现出色,能生成具有电影级真实感的场景和接近专业影棚级的写实肖像照 [11][14] - 具备较强的文字处理能力,能较好处理一级标题的渲染,但小字号文字仍存在变形问题 [18][19] - 语义理解能力到位,能根据指令生成符合要求的科普漫画内容 [20][22] - 用户生成内容涵盖复古电影质感大片、微观迷你世界场景、显微镜级别昆虫特写等,展示模型多样化应用潜力 [24][27][30] 性能优势 - 模型架构优化和蒸馏技术结合,在不牺牲质量的前提下大幅减少计算量,实现高效运行 [34][43] - 网友反馈模型能流畅运行在个人电脑上且不烧显卡,凸显其易用性和低资源消耗优势 [7]