Workflow
昆仑万维推出并开源Skywork UniPic

核心观点 - 昆仑万维推出并开源多模态统一预训练模型Skywork UniPic 该模型在单一架构中深度融合图像理解、文本到图像生成和图像编辑三大核心能力 通过自回归路线和端到端预训练实现通用性与可迁移性 [1] 技术架构创新 - 采用MAR编码器作为图像生成路径的视觉表征基础 同时引入SigLIP2作为图像理解路径主干 突破传统VQ或VAE编码器侧重视觉细节而弱化语义信息的局限性 [1] - 借鉴Harmon架构设计并在表征方式做出关键调整 构建真正统一的多模态模型架构 [1] - 通过共享编码器实现跨任务深度协同 保持自回归模型简洁高效的同时完成端到端优化流程 实现生成、理解、编辑三大能力的协同训练和相互促进 [2] 性能表现 - 以1.5B紧凑参数规模在无思维链(CoT)情况下取得SOTA分数 逼近部分较大模型带CoT的0.88分 [2] - 在DPG-Bench复杂指令生图基准上达到85.5分的行业当前最佳水平 [2] 数据与训练 - 基于大规模高质量数据进行端到端预训练 具备良好通用性与可迁移性 [1]