多模态统一模型 - 财报，业绩电话会，研报，新闻

多模态统一模型

搜索文档

证券日报网· 2025-07-30 15:14

核心观点 - 昆仑万维推出并开源多模态统一预训练模型Skywork UniPic 该模型在单一架构中深度融合图像理解、文本到图像生成和图像编辑三大核心能力通过自回归路线和端到端预训练实现通用性与可迁移性 [1] 技术架构创新 - 采用MAR编码器作为图像生成路径的视觉表征基础同时引入SigLIP2作为图像理解路径主干突破传统VQ或VAE编码器侧重视觉细节而弱化语义信息的局限性 [1] - 借鉴Harmon架构设计并在表征方式做出关键调整构建真正统一的多模态模型架构 [1] - 通过共享编码器实现跨任务深度协同保持自回归模型简洁高效的同时完成端到端优化流程实现生成、理解、编辑三大能力的协同训练和相互促进 [2] 性能表现 - 以1.5B紧凑参数规模在无思维链(CoT)情况下取得SOTA分数逼近部分较大模型带CoT的0.88分 [2] - 在DPG-Bench复杂指令生图基准上达到85.5分的行业当前最佳水平 [2] 数据与训练 - 基于大规模高质量数据进行端到端预训练具备良好通用性与可迁移性 [1]

1.5B参数撬动“吉卜力级”全能体验，国产开源之光多模态统一模型，来了

量子位· 2025-07-30 12:48

多模态AI技术趋势 - GPT-4o引发的"吉卜力风暴"成为上半年最热AI事件，证明多模态融合（文本、图像、声音）已成为AIGC新范式，更接近人类认知方式[2][4] - 行业技术方向从割裂的单模态处理转向统一模型，满足用户"看图+生图+改图"一体化需求[4][62] - 原生多模态统一模型实现"一次训练，处处生效"，推动AIGC从拼规模转向拼效率与体验[63] Skywork UniPic模型特性 - 昆仑万维开源1.5B参数多模态统一模型Skywork UniPic，实现图像理解、文本生成图像、图像编辑三大能力深度融合[5][13] - 模型性能密度高：1.5B参数效果接近/超越百亿参数专用模型，可在RTX 4090等消费级显卡运行[10][12][27] - 完整开源模型权重、技术报告及全流程代码，推动技术社区协作[11][65] 技术性能表现 - 在GenEval指令遵循评估中得分0.86，超越多数同类模型，逼近7B参数BAGEL带CoT的0.88分[25] - DPG-Bench复杂指令生图基准达85.5分SOTA水平，与14B参数BAGEL(85.07分)相当[26] - 图像编辑能力：GEditBench-EN得分5.83，ImgEdit-Bench得分3.49，可精准执行跨区域编辑指令[27][51] 模型架构创新 - 采用自回归模型架构（与GPT-4o同路线），深度整合图像生成至多模态框架，区别于主流扩散模型[30] - 双路径设计：MAR编码器用于图像生成路径，SigLIP2编码器用于图像理解路径[34] - MAR编码器通过Diffusion Loss替代传统VQ离散化，实现高质量生成与低延迟响应[36] 训练策略优化 - 渐进式多任务训练：先聚焦文本生成图像，再逐步引入理解与编辑任务，避免能力失衡[56][57] - 分层分辨率训练：从512×512微调基础特征，逐步提升至1024×1024强化细节捕捉[55] - 分阶段参数解冻策略：先对齐视觉与语言特征，再优化视觉主干，最终端到端联合训练[55] 数据体系构建 - 亿级精选预训练语料+百万级SFT样本，远低于行业百亿级数据需求但性能相当[40][42] - 自研两套奖励模型：Skywork-ImgReward优化文生图质量，Skywork-EditReward筛选编辑样本[48][50] - 数据提纯三大策略：均衡任务分布、多样化指令模板、多层质检机制[49] 行业影响与开源生态 - 昆仑万维持续开源布局：从百亿参数大模型到视频生成模型SkyReels系列，覆盖多模态全领域[68] - 开源推动技术平民化，降低AI应用门槛，加速创意生态发展[66][69] - 中国技术力量引领多模态创新，开源社区贡献获全球关注[65][69]

昆仑万维(SZ:300418)

AIGC

多模态统一模型

Artificial Intelligence

Skywork UniPic

AIGC

多模态统一模型

Artificial Intelligence

Skywork UniPic