Workflow
多模态图像生成
icon
搜索文档
国芯训国模取得世界第一,智谱再创新高,上市七个交易日累涨超126%
格隆汇· 2026-01-16 15:04
公司股价表现 - 智谱公司(2513.HK)股价于1月16日一度大涨超9%,最高触及263港元,续创历史新高 [1] - 公司上市七个交易日内累计上涨超126% [1] 技术突破与市场认可 - 智谱与华为联合研发的多模态图像生成模型GLM-Image登顶Hugging Face平台Trending榜第一 [1] - 该成就打破了长期以来国外模型在开源榜首的垄断局面,意味着其技术实力和应用价值获得国际认可 [1] - GLM-Image的开源地址已在GitHub和Hugging Face同步开放,全球开发者可免费使用 [1] 合作模式与技术架构 - 智谱与华为进行了“软硬协同”的深度合作,是国产AI全产业链突破的缩影 [1] - 华为提供了“国产算力底座”作为关键支撑,GLM-Image从数据预处理到大规模训练全程运行在华为昇腾Atlas 800T A2芯片和昇思MindSpore框架上 [1] - 智谱在模型架构上实现创新突破,GLM-Image采用“自回归+扩散解码器”的混合架构,使模型既能理解复杂指令又能准确绘制细节 [1]
自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
量子位· 2025-07-29 13:05
AI图像生成技术 - 当前AI图像生成领域Diffusion模型占据主导地位,但在精准控制方面存在不足[1] - 自回归模型(AR)成为新研究方向,MENTOR框架通过两阶段训练法实现像素级精准控制[2][3] - MENTOR在多模态图像生成中解决了模态失衡问题,仅需十分之一训练数据即超越Diffusion方法性能[2][5] 技术架构创新 - MENTOR采用统一的自回归架构,将多模态输入与输出图像token对齐[8][9] - 两阶段训练范式:第一阶段通过图像重建等任务建立多模态对齐,第二阶段通过指令微调提升跨模态推理能力[10][12] - 框架仅需3M训练数据和2.31B参数规模,在8张A100上训练1.5天即可完成[13][18] 性能表现 - 在DreamBench++测试中,MENTOR的CP-PF分数超越Emu2(37B参数)和DreamEngine(10.5B参数)[14][15] - 图像重建任务表现优异,在COCO和JourneyDB数据集上误差率仅0.1008和0.0867,显著低于其他模型[21] - 与Kosmos-G对比实验中,MENTOR在CP指标上提升0.40,PF指标提升0.13[19] 应用前景 - 框架具备通用性,可应用于文本引导图像分割、多图像融合生成等复杂任务[24] - 自回归范式为可控图像生成开辟新路径,未来有望通过更强大基础模型释放潜力[26] - 研究团队来自UIUC、清华大学、Adobe等机构,技术路线已获验证[2][26]