多模态统一模型

搜索文档
昆仑万维推出并开源Skywork UniPic
证券日报网· 2025-07-30 15:14
核心观点 - 昆仑万维推出并开源多模态统一预训练模型Skywork UniPic 该模型在单一架构中深度融合图像理解、文本到图像生成和图像编辑三大核心能力 通过自回归路线和端到端预训练实现通用性与可迁移性 [1] 技术架构创新 - 采用MAR编码器作为图像生成路径的视觉表征基础 同时引入SigLIP2作为图像理解路径主干 突破传统VQ或VAE编码器侧重视觉细节而弱化语义信息的局限性 [1] - 借鉴Harmon架构设计并在表征方式做出关键调整 构建真正统一的多模态模型架构 [1] - 通过共享编码器实现跨任务深度协同 保持自回归模型简洁高效的同时完成端到端优化流程 实现生成、理解、编辑三大能力的协同训练和相互促进 [2] 性能表现 - 以1.5B紧凑参数规模在无思维链(CoT)情况下取得SOTA分数 逼近部分较大模型带CoT的0.88分 [2] - 在DPG-Bench复杂指令生图基准上达到85.5分的行业当前最佳水平 [2] 数据与训练 - 基于大规模高质量数据进行端到端预训练 具备良好通用性与可迁移性 [1]
1.5B参数撬动“吉卜力级”全能体验,国产开源之光多模态统一模型,来了
量子位· 2025-07-30 12:48
多模态AI技术趋势 - GPT-4o引发的"吉卜力风暴"成为上半年最热AI事件,证明多模态融合(文本、图像、声音)已成为AIGC新范式,更接近人类认知方式[2][4] - 行业技术方向从割裂的单模态处理转向统一模型,满足用户"看图+生图+改图"一体化需求[4][62] - 原生多模态统一模型实现"一次训练,处处生效",推动AIGC从拼规模转向拼效率与体验[63] Skywork UniPic模型特性 - 昆仑万维开源1.5B参数多模态统一模型Skywork UniPic,实现图像理解、文本生成图像、图像编辑三大能力深度融合[5][13] - 模型性能密度高:1.5B参数效果接近/超越百亿参数专用模型,可在RTX 4090等消费级显卡运行[10][12][27] - 完整开源模型权重、技术报告及全流程代码,推动技术社区协作[11][65] 技术性能表现 - 在GenEval指令遵循评估中得分0.86,超越多数同类模型,逼近7B参数BAGEL带CoT的0.88分[25] - DPG-Bench复杂指令生图基准达85.5分SOTA水平,与14B参数BAGEL(85.07分)相当[26] - 图像编辑能力:GEditBench-EN得分5.83,ImgEdit-Bench得分3.49,可精准执行跨区域编辑指令[27][51] 模型架构创新 - 采用自回归模型架构(与GPT-4o同路线),深度整合图像生成至多模态框架,区别于主流扩散模型[30] - 双路径设计:MAR编码器用于图像生成路径,SigLIP2编码器用于图像理解路径[34] - MAR编码器通过Diffusion Loss替代传统VQ离散化,实现高质量生成与低延迟响应[36] 训练策略优化 - 渐进式多任务训练:先聚焦文本生成图像,再逐步引入理解与编辑任务,避免能力失衡[56][57] - 分层分辨率训练:从512×512微调基础特征,逐步提升至1024×1024强化细节捕捉[55] - 分阶段参数解冻策略:先对齐视觉与语言特征,再优化视觉主干,最终端到端联合训练[55] 数据体系构建 - 亿级精选预训练语料+百万级SFT样本,远低于行业百亿级数据需求但性能相当[40][42] - 自研两套奖励模型:Skywork-ImgReward优化文生图质量,Skywork-EditReward筛选编辑样本[48][50] - 数据提纯三大策略:均衡任务分布、多样化指令模板、多层质检机制[49] 行业影响与开源生态 - 昆仑万维持续开源布局:从百亿参数大模型到视频生成模型SkyReels系列,覆盖多模态全领域[68] - 开源推动技术平民化,降低AI应用门槛,加速创意生态发展[66][69] - 中国技术力量引领多模态创新,开源社区贡献获全球关注[65][69]