多模态图像生成 - 财报，业绩电话会，研报，新闻

多模态图像生成

搜索文档

格隆汇· 2026-01-16 15:04

公司股价表现 - 智谱公司(2513.HK)股价于1月16日一度大涨超9%，最高触及263港元，续创历史新高 [1] - 公司上市七个交易日内累计上涨超126% [1] 技术突破与市场认可 - 智谱与华为联合研发的多模态图像生成模型GLM-Image登顶Hugging Face平台Trending榜第一 [1] - 该成就打破了长期以来国外模型在开源榜首的垄断局面，意味着其技术实力和应用价值获得国际认可 [1] - GLM-Image的开源地址已在GitHub和Hugging Face同步开放，全球开发者可免费使用 [1] 合作模式与技术架构 - 智谱与华为进行了“软硬协同”的深度合作，是国产AI全产业链突破的缩影 [1] - 华为提供了“国产算力底座”作为关键支撑，GLM-Image从数据预处理到大规模训练全程运行在华为昇腾Atlas 800T A2芯片和昇思MindSpore框架上 [1] - 智谱在模型架构上实现创新突破，GLM-Image采用“自回归+扩散解码器”的混合架构，使模型既能理解复杂指令又能准确绘制细节 [1]

自回归模型杀回图像生成！实现像素级精准控制，比Diffusion更高效可控

量子位· 2025-07-29 13:05

AI图像生成技术 - 当前AI图像生成领域Diffusion模型占据主导地位，但在精准控制方面存在不足[1] - 自回归模型(AR)成为新研究方向，MENTOR框架通过两阶段训练法实现像素级精准控制[2][3] - MENTOR在多模态图像生成中解决了模态失衡问题，仅需十分之一训练数据即超越Diffusion方法性能[2][5] 技术架构创新 - MENTOR采用统一的自回归架构，将多模态输入与输出图像token对齐[8][9] - 两阶段训练范式：第一阶段通过图像重建等任务建立多模态对齐，第二阶段通过指令微调提升跨模态推理能力[10][12] - 框架仅需3M训练数据和2.31B参数规模，在8张A100上训练1.5天即可完成[13][18] 性能表现 - 在DreamBench++测试中，MENTOR的CP-PF分数超越Emu2(37B参数)和DreamEngine(10.5B参数)[14][15] - 图像重建任务表现优异，在COCO和JourneyDB数据集上误差率仅0.1008和0.0867，显著低于其他模型[21] - 与Kosmos-G对比实验中，MENTOR在CP指标上提升0.40，PF指标提升0.13[19] 应用前景 - 框架具备通用性，可应用于文本引导图像分割、多图像融合生成等复杂任务[24] - 自回归范式为可控图像生成开辟新路径，未来有望通过更强大基础模型释放潜力[26] - 研究团队来自UIUC、清华大学、Adobe等机构，技术路线已获验证[2][26]

自回归模型

多模态图像生成

Artificial Intelligence

Artificial Intelligence

MENTOR

Diffusion模型

Emu2